X-Git-Url: https://pd.if.org/git/?a=blobdiff_plain;f=functions%2Flocale%2FUnicodeData.py;h=eb0f3c33137f249a71b6b2cd70b2fff480b5257e;hb=4b1f856ea2b21f30b6af8d4cca7129ebc84d3d6f;hp=42a8f9f3bad916923fe1013ad8afd3ade0863164;hpb=3682010e5b8bcd48fd82f3e604829f045c7ada29;p=pdclib

diff --git a/functions/locale/UnicodeData.py b/functions/locale/UnicodeData.py
index 42a8f9f..eb0f3c3 100644
--- a/functions/locale/UnicodeData.py
+++ b/functions/locale/UnicodeData.py
@@ -1,5 +1,5 @@
 #!/usr/bin/python
-# -*- coding: <encoding name> -*-
+# -*- coding: ascii -*-
 # Unicode Data Converter
 #
 # This file is part of the Public Domain C Library (PDCLib).
@@ -26,6 +26,7 @@ BIT_SPACE =  32
 BIT_LOWER =  64
 BIT_UPPER = 128
 BIT_DIGIT = 256
+BIT_XDIGT = 512
 
 # Category to bitfield mapping
 categories = {
@@ -48,12 +49,48 @@ categories = {
     'Sc': BIT_GRAPH,                            # Currency symbol
     'Sk': BIT_GRAPH,                            # Non-letterlike modifier symbol
     'So': BIT_GRAPH,                            # Other symbol
-    'Zs': BIT_SPACE | BIT_GRAPH | BIT_BLANK,    # Non-zero-width space character
-    'Zl': BIT_SPACE | BIT_GRAPH,                # Line separator
-    'Zp': BIT_SPACE | BIT_GRAPH,                # Paragraph separator
+    'Zs': BIT_SPACE,                            # Non-zero-width space character
+    'Zl': BIT_SPACE,                            # Line separator
+    'Zp': BIT_SPACE,                            # Paragraph separator
     'Cc': BIT_CNTRL,                            # C0/C1 control codes
 }
 
+# Characters with special properties
+special = {
+    # Blank characters
+    0x0020: BIT_SPACE | BIT_BLANK, # space
+    0x0009: BIT_SPACE | BIT_BLANK, # tab
+
+    # Digits
+    0x0030: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0031: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0032: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0033: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0034: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0035: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0036: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0037: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0038: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+    0x0039: BIT_XDIGT | BIT_DIGIT | BIT_GRAPH,
+
+    # A-F (hex uppercase)
+    0x0041: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+    0x0042: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+    0x0043: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+    0x0044: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+    0x0045: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+    0x0046: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_UPPER,
+
+
+    # a-f (hex lowercase)
+    0x0061: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+    0x0062: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+    0x0063: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+    0x0064: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+    0x0065: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+    0x0066: BIT_XDIGT | BIT_ALPHA | BIT_GRAPH | BIT_LOWER,
+}
+
 in_file  = open('UnicodeData.txt', 'r')
 out_file = open('_PDCLIB_unicodedata.c', 'w')
 try:
@@ -72,7 +109,7 @@ try:
  #ifndef REGTEST
  #include <_PDCLIB_locale.h>
 
- _PDCLIB_wcinfo_t _PDCLIB_wcinfo[] = {
+const _PDCLIB_wcinfo_t _PDCLIB_wcinfo[] = {
 //   { value,\tflags,\tlower,\tupper\t}, // name
  """)
     for line in in_file:
@@ -83,7 +120,7 @@ try:
         num       = int(num_hex, 16)
         upper_case = int(upper_case_hex, 16) if len(upper_case_hex) else num
         lower_case = int(lower_case_hex, 16) if len(lower_case_hex) else num
-        bits = categories.get(category, 0)
+        bits = special.get(num, categories.get(category, 0))
 
         if upper_case == 0 and lower_case == 0 and bits == 0:
             continue
@@ -92,7 +129,7 @@ try:
             num, bits, lower_case, upper_case, name))
     out_file.write('};\n\n')
     out_file.write("""
-size_t _PDCLIB_wcinfo_size = sizeof(_PDCLIB_wcinfo) / sizeof(_PDCLIB_wcinfo[0]);
+const size_t _PDCLIB_wcinfo_size = sizeof(_PDCLIB_wcinfo) / sizeof(_PDCLIB_wcinfo[0]);
 #endif
 
 #ifdef TEST