From 3cd7a8f7f2741d966fa9bea2dcaced4376c2e277 Mon Sep 17 00:00:00 2001 From: Peng Huang Date: Sun, 16 May 2010 11:45:58 +0800 Subject: Add punct.py --- scripts/punct.py | 100 +++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 100 insertions(+) create mode 100644 scripts/punct.py (limited to 'scripts/punct.py') diff --git a/scripts/punct.py b/scripts/punct.py new file mode 100644 index 0000000..a40805b --- /dev/null +++ b/scripts/punct.py @@ -0,0 +1,100 @@ +# vim:set et sts=4: +# -*- coding: utf-8 -*- + +punct_map = ( + (u'', (u',', u'。', u'「', u'」', u'、', u':', u';', u'?', u'!',)), + (u'!', (u'!', u'﹗', u'‼', u'⁉',)), + (u'"', (u'“', u'”', u'"',)), + (u'#', (u'#', u'﹟', u'♯',)), + (u'$', (u'$', u'€', u'﹩', u'¢', u'£', u'¥',)), + (u'%', (u'%', u'﹪', u'‰', u'‱', u'㏙', u'㏗',)), + (u'&', (u'&', u'﹠',)), + (u'(', (u'(', u'︵', u'﹙',)), + (u')', (u')', u'︶', u'﹚',)), + (u'*', (u'*', u'×', u'※', u'╳', u'﹡', u'⁎', u'⁑', u'⁂', u'⌘',)), + (u'+', (u'+', u'±', u'﹢',)), + (u',', (u',', u'、', u'﹐', u'﹑',)), + (u'-', (u'…', u'—', u'-', u'¯', u'﹉', u' ̄', u'﹊', u'ˍ', u'–', u'‥',)), + (u'.', (u'。', u'·', u'‧', u'﹒', u'.',)), + (u'/', (u'/', u'÷', u'↗', u'↙', u'∕',)), + (u'0', (u'0',)), + (u'1', (u'1',)), + (u'2', (u'2',)), + (u'3', (u'3',)), + (u'4', (u'4',)), + (u'5', (u'5',)), + (u'6', (u'6',)), + (u'7', (u'7',)), + (u'8', (u'8',)), + (u'9', (u'9',)), + (u':', (u':', u'︰', u'﹕',)), + (u';', (u';', u'﹔',)), + (u'<', (u'<', u'〈', u'《', u'︽', u'︿', u'﹤',)), + (u'=', (u'=', u'≒', u'≠', u'≡', u'≦', u'≧', u'﹦',)), + (u'>', (u'>', u'〉', u'》', u'︾', u'﹀', u'﹥',)), + (u'?', (u'?', u'﹖', u'⁇', u'⁈',)), + (u'@', (u'@', u'⊕', u'⊙', u'㊣', u'﹫', u'◉', u'◎',)), + (u'A', (u'A',)), + (u'B', (u'B',)), + (u'C', (u'C',)), + (u'D', (u'D',)), + (u'E', (u'E',)), + (u'F', (u'F',)), + (u'G', (u'G',)), + (u'H', (u'H',)), + (u'I', (u'I',)), + (u'J', (u'J',)), + (u'K', (u'K',)), + (u'L', (u'L',)), + (u'M', (u'M',)), + (u'N', (u'N',)), + (u'O', (u'O',)), + (u'P', (u'P',)), + (u'Q', (u'Q',)), + (u'R', (u'R',)), + (u'S', (u'S',)), + (u'T', (u'T',)), + (u'U', (u'U',)), + (u'V', (u'V',)), + (u'W', (u'W',)), + (u'X', (u'X',)), + (u'Y', (u'Y',)), + (u'Z', (u'Z',)), + (u'[', (u'「', u'[', u'『', u'【', u'「', u'︻', u'﹁', u'﹃',)), + (u'\'', (u'、', u'‘', u'’',)), + (u'\\', (u'\', u'↖', u'↘', u'﹨',)), + (u']', (u'」', u']', u'』', u'】', u'」', u'︼', u'﹂', u'﹄',)), + (u'^', (u'︿', u'〈', u'《', u'︽', u'﹤', u'<',)), + (u'_', (u'_', u'╴', u'←', u'→',)), + (u'`', (u'‵', u'′',)), + (u'a', (u'a',)), + (u'b', (u'b',)), + (u'c', (u'c',)), + (u'd', (u'd',)), + (u'e', (u'e',)), + (u'f', (u'f',)), + (u'g', (u'g',)), + (u'h', (u'h',)), + (u'i', (u'i',)), + (u'j', (u'j',)), + (u'k', (u'k',)), + (u'l', (u'l',)), + (u'm', (u'm',)), + (u'n', (u'n',)), + (u'o', (u'o',)), + (u'p', (u'p',)), + (u'q', (u'q',)), + (u'r', (u'r',)), + (u's', (u's',)), + (u't', (u't',)), + (u'u', (u'u',)), + (u'v', (u'v',)), + (u'w', (u'w',)), + (u'x', (u'x',)), + (u'y', (u'y',)), + (u'z', (u'z',)), + (u'{', (u'{', u'︷', u'﹛', u'〔', u'﹝', u'︹',)), + (u'|', (u'|', u'↑', u'↓', u'∣', u'∥', u'︱', u'︳', u'︴', u'¦',)), + (u'}', (u'}', u'︸', u'﹜', u'〕', u'﹞', u'︺',)), + (u'~', (u'~', u'﹋', u'﹌',)), +) -- cgit From acf0cdaca6d0c75359f90f4a888c6c99fc47c49b Mon Sep 17 00:00:00 2001 From: Peng Huang Date: Mon, 17 May 2010 07:12:59 +0800 Subject: Fix the order of punct_table --- scripts/punct.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) (limited to 'scripts/punct.py') diff --git a/scripts/punct.py b/scripts/punct.py index a40805b..b67e838 100644 --- a/scripts/punct.py +++ b/scripts/punct.py @@ -9,6 +9,7 @@ punct_map = ( (u'$', (u'$', u'€', u'﹩', u'¢', u'£', u'¥',)), (u'%', (u'%', u'﹪', u'‰', u'‱', u'㏙', u'㏗',)), (u'&', (u'&', u'﹠',)), + (u'\'', (u'、', u'‘', u'’',)), (u'(', (u'(', u'︵', u'﹙',)), (u')', (u')', u'︶', u'﹚',)), (u'*', (u'*', u'×', u'※', u'╳', u'﹡', u'⁎', u'⁑', u'⁂', u'⌘',)), @@ -61,7 +62,6 @@ punct_map = ( (u'Y', (u'Y',)), (u'Z', (u'Z',)), (u'[', (u'「', u'[', u'『', u'【', u'「', u'︻', u'﹁', u'﹃',)), - (u'\'', (u'、', u'‘', u'’',)), (u'\\', (u'\', u'↖', u'↘', u'﹨',)), (u']', (u'」', u']', u'』', u'】', u'」', u'︼', u'﹂', u'﹄',)), (u'^', (u'︿', u'〈', u'《', u'︽', u'﹤', u'<',)), -- cgit