source: branches/kmk/Lucide/plugins/ludoc/cpconv.cpp @ 339

Last change on this file since 339 was 339, checked in by dmik, 12 years ago

branches/kmk: Fixed: uniConvertString would return incorrect output buffer size.

File size: 10.7 KB
Line 
1/* ***** BEGIN LICENSE BLOCK *****
2 * Version: CDDL 1.0/LGPL 2.1
3 *
4 * The contents of this file are subject to the COMMON DEVELOPMENT AND
5 * DISTRIBUTION LICENSE (CDDL) Version 1.0 (the "License"); you may not use
6 * this file except in compliance with the License. You may obtain a copy of
7 * the License at http://www.sun.com/cddl/
8 *
9 * Software distributed under the License is distributed on an "AS IS" basis,
10 * WITHOUT WARRANTY OF ANY KIND, either express or implied. See the License
11 * for the specific language governing rights and limitations under the
12 * License.
13 *
14 * The Initial Developer of the Original Code is
15 * Eugene Romanenko, netlabs.org.
16 * Portions created by the Initial Developer are Copyright (C) 2006
17 * the Initial Developer. All Rights Reserved.
18 *
19 * Contributor(s):
20 *
21 * Alternatively, the contents of this file may be used under the terms of
22 * the GNU Lesser General Public License Version 2.1 or later (the "LGPL"),
23 * in which case the provisions of the LGPL are applicable instead of those
24 * above. If you wish to allow use of your version of this file only under the
25 * terms of the LGPL, and not to allow others to use your version of this file
26 * under the terms of the CDDL, indicate your decision by deleting the
27 * provisions above and replace them with the notice and other provisions
28 * required by the LGPL. If you do not delete the provisions above, a recipient
29 * may use your version of this file under the terms of any one of the CDDL
30 * or the LGPL.
31 *
32 * ***** END LICENSE BLOCK ***** */
33
34
35#include <os2.h>
36#include <uconv.h>
37#include <string.h>
38
39
40// Converts special non-ascii chars to suitable ascii chars
41extern "C" VOID APIENTRY uniConvertSpChars( UniChar *uni )
42{
43    while ( *uni )
44    {
45        switch ( *uni )
46        {
47            case 0x2018:
48            case 0x2019:
49            case 0x2032:
50                *uni = 0x0027; // '
51                break;
52            case 0x201C:
53            case 0x201D:
54            case 0x00AB:
55            case 0x00BB:
56                *uni = 0x0022; // "
57                break;
58            case 0x2013:
59            case 0x2014:
60                *uni = 0x002D; // -
61                break;
62        }
63        *uni++;
64    }
65}
66
67
68// Ligatures table
69struct Ligature { UniChar unicode;  wchar_t *equivalent;  int equivalentLength; };
70
71// Table from [http://en.wikipedia.org/wiki/Ligature_(typography)#Unicode]
72#define NUM_LIGATURES   38
73static Ligature ligatures[ NUM_LIGATURES ] = {
74    { 0x00DF, L"fs",  2 }, { 0x00E6, L"AE",  2 }, { 0x00C6, L"ae",  2 },
75    { 0x0152, L"OE",  2 }, { 0x0153, L"oe",  2 }, { 0x0276, L"oe",  2 },
76    { 0x0132, L"IJ",  2 }, { 0x0133, L"ij",  2 }, { 0x014A, L"Ng",  2 },
77    { 0x014B, L"ng",  2 }, { 0x01F6, L"Hv",  2 }, { 0x0195, L"hv",  2 },
78    { 0x01C4, L"DZ",  2 }, { 0x01C5, L"Dz",  2 }, { 0x01C6, L"dz",  2 },
79    { 0x01C7, L"LJ",  2 }, { 0x01C8, L"Lj",  2 }, { 0x01C9, L"lj",  2 },
80    { 0x01CA, L"NJ",  2 }, { 0x01CB, L"Nj",  2 }, { 0x01CC, L"nj",  2 },
81    { 0x01F1, L"DZ",  2 }, { 0x01F2, L"Dz",  2 }, { 0x01F3, L"dz",  2 },
82    { 0x02A3, L"dz",  2 }, { 0x02A6, L"ts",  2 }, { 0x02A9, L"fng", 3 },
83    { 0x02AA, L"ls",  2 }, { 0x02AB, L"lz",  2 }, { 0x02AC, L"ww",  2 },
84    { 0x1D6B, L"ue",  2 }, { 0xFB00, L"ff",  2 }, { 0xFB01, L"fi",  2 },
85    { 0xFB02, L"fl",  2 }, { 0xFB03, L"ffi", 3 }, { 0xFB04, L"ffl", 3 },
86    { 0xFB05, L"ft",  2 }, { 0xFB06, L"st",  2 }
87};
88
89// If unichar is ligature - returns number of additional chars
90// which replaces the ligature, zero otherwise.
91inline int isLigature( UniChar ch )
92{
93    for ( int i = 0; i < NUM_LIGATURES; i++ ) {
94        if ( ch == ligatures[ i ].unicode ) {
95            return ligatures[ i ].equivalentLength - 1;
96        }
97    }
98    return 0;
99}
100
101// If unichar is ligature - returns pointer to struct Ligature
102// which contains replacement for ligature, NULL otherwise.
103inline Ligature *getReplLigature( UniChar ch )
104{
105    for ( int i = 0; i < NUM_LIGATURES; i++ ) {
106        if ( ch == ligatures[ i ].unicode ) {
107            return &( ligatures[ i ] );
108        }
109    }
110    return NULL;
111}
112
113// Return number of chars which should be added to string
114// length to fit the string with converted ligatures.
115// If no ligatures in string - returns zero.
116extern "C" LONG APIENTRY uniLigaturesLength( UniChar *str )
117{
118    LONG llen = 0;
119    while ( *str != 0 ) {
120        llen += isLigature( *str++ );
121    }
122    return llen;
123}
124
125// replaces ligatures in src into dst
126// src remains unchanged
127extern "C" VOID APIENTRY uniReplaceLigatures( UniChar *src, UniChar *dst )
128{
129    while ( *src != 0 )
130    {
131        Ligature *lig = getReplLigature( *src );
132        if ( lig == NULL ) {
133            *dst++ = *src++;
134        }
135        else {
136            for ( int i = 0; i < lig->equivalentLength; i++ ) {
137                *dst++ = lig->equivalent[ i ];
138            }
139            *src++;
140        }
141    }
142}
143
144extern "C" char *APIENTRY uniConvertString( const char *s, size_t len, UconvObject from,
145                                            UconvObject to, size_t *retLen )
146{
147    if ( s == NULL )
148        return NULL;
149
150    size_t cSubs = 0;
151    size_t unilen = len + 1;
152    UniChar *unibuf = new UniChar[ unilen ];
153    memset( unibuf, 0, unilen * sizeof( UniChar ) );
154    UniChar *tmpuni = unibuf;
155    UniUconvToUcs( from, (void **)&s, &len, &tmpuni, &unilen, &cSubs );
156    unilen = UniStrlen( unibuf );
157
158    int liglen = uniLigaturesLength( unibuf );
159    if ( liglen > 0 )  // string contain ligature(s)
160    {
161        size_t ulen_tmp = ( unilen + liglen + 1 ) * sizeof( UniChar );
162        char *uni_tmp = new char[ ulen_tmp ];
163        uniReplaceLigatures( unibuf, (UniChar *)uni_tmp );
164        delete unibuf;
165        unibuf = (UniChar *)uni_tmp;
166        unilen = UniStrlen( unibuf );
167    }
168    uniConvertSpChars( unibuf );
169
170    // take the maximum of 4 chars per each unicode char on output
171    size_t blen = ( unilen + 1 ) * 4;
172    char *b = new char[ blen ];
173    memset( b, 0, blen );
174    char *bsav = b;
175    size_t blensav = blen;
176    tmpuni = unibuf;
177    cSubs = 0;
178    UniUconvFromUcs( to, &tmpuni, &unilen, (void **)&b, &blen, &cSubs );
179    delete unibuf;
180
181    // tailor the buffer size and append 4 zeros as an all-in-one terminator
182    blen = blensav - blen;
183    b = new char[ blen + 4 ];
184    memcpy( b, bsav, blen );
185    memset( b + blen, 0, 4 );
186    delete[] bsav;
187
188    if ( retLen != NULL )
189        *retLen = blen;
190    return b;
191}
192
193static char *utf16_sys( const char *s, size_t len, UconvObject *utf16,
194                        UconvObject *sys, size_t *retLen, bool from, bool isUtf8 )
195{
196    UconvObject utf16Tmp = NULL;
197    UconvObject sysTmp = NULL;
198    uconv_attribute_t attr;
199
200    if ( utf16 == NULL )
201        utf16 = &utf16Tmp;
202    if ( sys == NULL )
203        sys = &sysTmp;
204
205    if ( *utf16 == NULL ) {
206        UniCreateUconvObject( (UniChar *)L"UCS-2@endian=big", utf16 );
207        UniQueryUconvObject( *utf16, &attr, sizeof(attr), NULL, NULL, NULL );
208        attr.converttype &= ~(CVTTYPE_CTRL7F | CVTTYPE_PATH);
209        attr.options = UCONV_OPTION_SUBSTITUTE_BOTH;
210        UniSetUconvObject( *utf16, &attr );
211    }
212    if ( *sys == NULL ) {
213        if ( isUtf8 )
214            UniCreateUconvObject( (UniChar *)L"UTF-8", sys );
215        else
216            UniCreateUconvObject( (UniChar *)L"", sys );
217        UniQueryUconvObject( *sys, &attr, sizeof(attr), NULL, NULL, NULL );
218        attr.converttype &= ~(CVTTYPE_CTRL7F | CVTTYPE_PATH);
219        attr.options = UCONV_OPTION_SUBSTITUTE_BOTH;
220        UniSetUconvObject( *sys, &attr );
221    }
222
223    char *ret;
224    if ( from )
225        ret = uniConvertString( s, len, *utf16, *sys, retLen );
226    else
227        ret = uniConvertString( s, len, *sys, *utf16, retLen );
228
229    if ( sys == &sysTmp )
230        UniFreeUconvObject( sysTmp );
231    if ( utf16 == &utf16Tmp )
232        UniFreeUconvObject( utf16Tmp );
233
234    return ret;
235}
236
237extern "C" char *APIENTRY uniUtf16BEToSys( const char *s, size_t len, UconvObject *utf16,
238                                           UconvObject *sys )
239{
240    if ( s == NULL )
241        return NULL;
242    if ( len >= 2 && s[0] == (int)(char)0xfe && s[1] == (int)(char)0xff ) {
243        s += 2;
244        len -= 2;
245    }
246    return utf16_sys( s, len, utf16, sys, NULL, true, false );
247}
248
249extern "C" char *APIENTRY uniSysToUtf16BE( const char *s, UconvObject *sys,
250                                           UconvObject *utf16, size_t *retLen )
251{
252    return utf16_sys( s, strlen( s ), utf16, sys, retLen, false, false );
253}
254
255extern "C" char *APIENTRY uniUtf16BEToUtf8( const char *s, size_t len, UconvObject *utf16,
256                                            UconvObject *utf8 )
257{
258    if ( s == NULL )
259        return NULL;
260    if ( len >= 2 && s[0] == (char)0xfe && s[1] == (char)0xff ) {
261        s += 2;
262        len -= 2;
263    }
264    return utf16_sys( s, len, utf16, utf8, NULL, true, true );
265}
266
267extern "C" char *APIENTRY uniUtf8ToUtf16BE( const char *s, UconvObject *utf8,
268                                            UconvObject *utf16, size_t *retLen )
269{
270    return utf16_sys( s, strlen( s ), utf16, utf8, retLen, false, true );
271}
272
273static char *utf8_sys( const char *s, UconvObject *utf8, UconvObject *sys, bool from )
274{
275    UconvObject utf8Tmp = NULL;
276    UconvObject sysTmp = NULL;
277    uconv_attribute_t attr;
278
279    if ( utf8 == NULL )
280        utf8 = &utf8Tmp;
281    if ( sys == NULL )
282        sys = &sysTmp;
283
284    if ( *utf8 == NULL ) {
285        UniCreateUconvObject( (UniChar *)L"UTF-8", utf8 );
286        UniQueryUconvObject( *utf8, &attr, sizeof(attr), NULL, NULL, NULL );
287        attr.converttype &= ~(CVTTYPE_CTRL7F | CVTTYPE_PATH);
288        attr.options = UCONV_OPTION_SUBSTITUTE_BOTH;
289        UniSetUconvObject( *utf8, &attr );
290    }
291    if ( *sys == NULL ) {
292        UniCreateUconvObject( (UniChar *)L"", sys );
293        UniQueryUconvObject( *sys, &attr, sizeof(attr), NULL, NULL, NULL );
294        attr.converttype &= ~(CVTTYPE_CTRL7F | CVTTYPE_PATH);
295        attr.options = UCONV_OPTION_SUBSTITUTE_BOTH;
296        UniSetUconvObject( *sys, &attr );
297    }
298
299    char *ret;
300    if ( from )
301        ret = uniConvertString( s, strlen( s ), *utf8, *sys, NULL );
302    else
303        ret = uniConvertString( s, strlen( s ), *sys, *utf8, NULL );
304
305    if ( sys == &sysTmp )
306        UniFreeUconvObject( sysTmp );
307    if ( utf8 == &utf8Tmp )
308        UniFreeUconvObject( utf8Tmp );
309
310    return ret;
311}
312
313extern "C" char *APIENTRY uniUtf8ToSys( const char *s, UconvObject *utf8,
314                                        UconvObject *sys )
315{
316    return utf8_sys( s, utf8, sys, true );
317}
318
319extern "C" char *APIENTRY uniSysToUtf8( const char *s, UconvObject *sys,
320                                        UconvObject *utf8 )
321{
322    return utf8_sys( s, utf8, sys, false );
323}
324
Note: See TracBrowser for help on using the repository browser.