コンテンツへスキップ
ものがたり
戻る

CJK ordering sucks

Windows上では、一と㆒と㊀は絶対に同一視できないらしい。何でCJK ideograph領域を完全なCodepoint順にしなかったんだか。
互換字ならdiacritical weightあるいはspecial weightで調整することで、より柔軟な文字列比較も可能になったはずだし(special weightはいずれにしても複雑なので、CJK互換字の同一視フラグが追加されたところで大した損失にはならない)、何よりCJK領域に関するでっかいマッピングをインメモリに保持しなくてもすんだはずなのだ。

視点を他の記号に移してみれば(たとえばU+2460とか)、僕が書いていることがちっとも不思議ではないことが理解できるだろう。


この記事を共有:

前の記事
Uche Ogbuji on Michael Kay on Comparing XSLT and XQuery
次の記事
Windowsでは、もうサポート対象の漢字を一生増やせません