]> pd.if.org Git - pdclib/blob - functions/locale/UnicodeData.py
PDCLIB-3 Add XDIGIT to list of bits in Unicode character data
[pdclib] / functions / locale / UnicodeData.py
1 #!/usr/bin/python\r
2 # -*- coding: <encoding name> -*-\r
3 # Unicode Data Converter\r
4 #\r
5 # This file is part of the Public Domain C Library (PDCLib).\r
6 # Permission is granted to use, modify, and / or redistribute at will.\r
7 """\r
8 Converts the character information provdied by Unicode in the UnicodeData.txt\r
9 file from the Unicode character database into a table for use by PDCLib.\r
10 \r
11 Usage: Download the UnicodeData.txt file to the same directory as this script \r
12 and then run it. Both Python 2 and 3 are supported.\r
13 \r
14 Download the data from\r
15     ftp://ftp.unicode.org/Public/UNIDATA/UnicodeData.txt\r
16 """\r
17 import os\r
18 \r
19 # MUST BE KEPT SYNCHRONIZED WITH _PDCLIB_locale.h\r
20 BIT_ALPHA =   1\r
21 BIT_BLANK =   2\r
22 BIT_CNTRL =   4\r
23 BIT_GRAPH =   8\r
24 BIT_PUNCT =  16\r
25 BIT_SPACE =  32\r
26 BIT_LOWER =  64\r
27 BIT_UPPER = 128\r
28 BIT_DIGIT = 256\r
29 BIT_XDIGT = 512\r
30 \r
31 # Category to bitfield mapping\r
32 categories = {\r
33     'Lu': BIT_ALPHA | BIT_GRAPH | BIT_UPPER,    # Uppercase\r
34     'Ll': BIT_ALPHA | BIT_GRAPH | BIT_LOWER,    # Lowercase\r
35     'Lt': BIT_ALPHA | BIT_GRAPH | BIT_UPPER,    # Title case. Upper?\r
36     'Lm': BIT_ALPHA | BIT_GRAPH,                # Modifier. Case?\r
37     'Lo': BIT_ALPHA | BIT_GRAPH,                # "Other" letter (e.g. Ideograph)\r
38     'Nd': BIT_DIGIT | BIT_GRAPH,                # Decimal digit\r
39     'Nl': BIT_GRAPH,                            # Letter-like numeric character\r
40     'No': BIT_GRAPH,                            # Other numeric\r
41     'Pc': BIT_PUNCT | BIT_GRAPH,                # Connecting punctuation\r
42     'Pd': BIT_PUNCT | BIT_GRAPH,                # Dash punctuation\r
43     'Ps': BIT_PUNCT | BIT_GRAPH,                # Opening punctuation\r
44     'Pe': BIT_PUNCT | BIT_GRAPH,                # Closing punctuation\r
45     'Pi': BIT_PUNCT | BIT_GRAPH,                # Opening quote\r
46     'Pf': BIT_PUNCT | BIT_GRAPH,                # Closing quote\r
47     'Po': BIT_PUNCT | BIT_GRAPH,                # Other punctuation\r
48     'Sm': BIT_GRAPH,                            # Mathematical symbol\r
49     'Sc': BIT_GRAPH,                            # Currency symbol\r
50     'Sk': BIT_GRAPH,                            # Non-letterlike modifier symbol\r
51     'So': BIT_GRAPH,                            # Other symbol\r
52     'Zs': BIT_SPACE | BIT_GRAPH | BIT_BLANK,    # Non-zero-width space character\r
53     'Zl': BIT_SPACE | BIT_GRAPH,                # Line separator\r
54     'Zp': BIT_SPACE | BIT_GRAPH,                # Paragraph separator\r
55     'Cc': BIT_CNTRL,                            # C0/C1 control codes\r
56 }\r
57 \r
58 # Characters with special properties\r
59 special = {\r
60     # Digits\r
61     0x0030: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
62     0x0031: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
63     0x0032: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
64     0x0033: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
65     0x0034: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
66     0x0035: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
67     0x0036: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
68     0x0037: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
69     0x0038: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
70     0x0039: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,\r
71 \r
72     # A-F (hex uppercase)\r
73     0x0041: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
74     0x0042: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
75     0x0043: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
76     0x0044: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
77     0x0045: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
78     0x0046: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,\r
79 \r
80 \r
81     # a-f (hex lowercase)\r
82     0x0061: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
83     0x0062: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
84     0x0063: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
85     0x0064: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
86     0x0065: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
87     0x0066: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,\r
88 }\r
89 \r
90 in_file  = open('UnicodeData.txt', 'r')\r
91 out_file = open('_PDCLIB_unicodedata.c', 'w')\r
92 try:\r
93     out_file.write("""\r
94 /* Unicode Character Information ** AUTOMATICALLY GENERATED FILE **\r
95  *\r
96  * This file is part of the PDCLib public domain C Library, but is automatically\r
97  * generated from the Unicode character data information file found at\r
98  *   ftp://ftp.unicode.org/Public/UNIDATA/UnicodeData.txt\r
99  * \r
100  * As a result, the licensing that applies to that file also applies to this \r
101  * file. The licensing which applies to the Unicode character data can be found \r
102  * in Exhibit 1 of the Unicode Terms of Use, found at\r
103  *   http://www.unicode.org/copyright.html#Exhibit1\r
104  */\r
105  #ifndef REGTEST\r
106  #include <_PDCLIB_locale.h>\r
107 \r
108  _PDCLIB_wcinfo_t _PDCLIB_wcinfo[] = {\r
109 //   { value,\tflags,\tlower,\tupper\t}, // name\r
110  """)\r
111     for line in in_file:\r
112         (num_hex, name, category, combining_class, bidi_class, decomposition,\r
113          numeric_type, numeric_digit, numeric_value, mirrored, u1name, iso_com, \r
114          upper_case_hex, lower_case_hex, title_case_hex) = line.split(";")\r
115 \r
116         num       = int(num_hex, 16)\r
117         upper_case = int(upper_case_hex, 16) if len(upper_case_hex) else num\r
118         lower_case = int(lower_case_hex, 16) if len(lower_case_hex) else num\r
119         bits = special.get(num, categories.get(category, 0))\r
120 \r
121         if upper_case == 0 and lower_case == 0 and bits == 0:\r
122             continue\r
123 \r
124         out_file.write("    { 0x%X,\t0x%X,\t0x%X,\t0x%X }, // %s\n" % (\r
125             num, bits, lower_case, upper_case, name))\r
126     out_file.write('};\n\n')\r
127     out_file.write("""\r
128 size_t _PDCLIB_wcinfo_size = sizeof(_PDCLIB_wcinfo) / sizeof(_PDCLIB_wcinfo[0]);\r
129 #endif\r
130 \r
131 #ifdef TEST\r
132 #include <_PDCLIB_test.h>\r
133 int main( void )\r
134 {\r
135     return TEST_RESULTS;\r
136 }\r
137 #endif\r
138 \r
139 """)\r
140 except:\r
141     in_file.close()\r
142     out_file.close()\r
143     os.remove('_PDCLIB_unicodedata.c')\r
144     raise\r
145 else:\r
146     in_file.close()\r
147     out_file.close()\r