タイ語の判定メモ
この記事で記述されていたことをちょっとJavaでできないか調べてみました。Rubyを使ってタイ語の表示文字単位で文字列を区切る - Qiita
やりたいことは、この記事で特殊扱いしている文字(多分日本語の「パ」とかのマルの部分)の判定をJavaで実装したかったのですが、以下のよう実装できました。もっといい方法があればコメントお願いします!
- code
for (int i = 0x0e00; i < 0x0e60; i++) { String name = Character.getName(i); int type = Character.getType(i); //if (type == 6 && name.contains("THAI")){ Character.UnicodeBlock block = Character.UnicodeBlock.of(i); if (type == 6 && block == Character.UnicodeBlock.THAI){ // *1 System.out.println(String.format("%x, name:%s, type:%d", i, name, type)); } }
- 実行結果
参考までにUTF-8のコード表は、ここunicode表Thaiで確認しました。
まだまだJava勉強不足です、、、
P.S.@skrbさんの記事を(2/6)Java技術最前線 - Java SE 7徹底理解 第7回 Unicode 6.0と国際化:ITproを参考に*1のように修正しました。