タイ語の判定メモ

この記事で記述されていたことをちょっとJavaでできないか調べてみました。Rubyを使ってタイ語の表示文字単位で文字列を区切る - Qiita
やりたいことは、この記事で特殊扱いしている文字(多分日本語の「パ」とかのマルの部分)の判定をJavaで実装したかったのですが、以下のよう実装できました。もっといい方法があればコメントお願いします!

  • code
        for (int i = 0x0e00; i < 0x0e60; i++) {
            String name = Character.getName(i);
            int type = Character.getType(i);
            //if (type == 6 && name.contains("THAI")){
            Character.UnicodeBlock block = Character.UnicodeBlock.of(i);
            if (type == 6 && block == Character.UnicodeBlock.THAI){   // *1 
                System.out.println(String.format("%x, name:%s, type:%d", i, name, type));
            }
        }
  • 実行結果

参考までにUTF-8のコード表は、ここunicode表Thaiで確認しました。
まだまだJava勉強不足です、、、
P.S.@さんの記事を(2/6)Java技術最前線 - Java SE 7徹底理解 第7回 Unicode 6.0と国際化:ITproを参考に*1のように修正しました。