再び、Microsoftの文字コードセミナー

およそ二年ぶりの参加。
UnicodeとJIS X 0213〜情報システムにおける日本語処理〜
前回はIVS関係がごっそり削除されてしまっていたので、今回はそこに期待して再度参加してみた。


今回の収穫。
・IVS/IVDはWindows 7で一部実装済み。(正式サポートではないが、GDIレベルでの実装)
・汎用電子IVDは今週中に手続き完了し、unicode.orgで公開される予定
Ken Lundeの読み方はケン・ランディ*1


前回から内容が大幅にバージョンアップしてた。半分くらいは前回の焼き直しだけど、半分くらいは割と最新のトピック。文字コードにまつわる歴史(Microsoft中心だけど)から用語の定義、技術的な観点からアーカイブ的な観点(データの永続性、同一性の問題)まで、加えてUnicodeの最新状況まで広範に亘った内容で個人的には大変満足。


参加人数は20人には届かないくらいで、前回よりも更に少ない。これは平日午前中という日程のせいかも。
それでもこんなニッチなセミナーにあえて参加するのだから参加者全員マニアックには違いない。講義終了後の質疑はこの人数にしてはあり得ないくらいのかなり積極的な発言がたくさん出て驚いたが、それだけ参加者のレベルが高かったということか。


忘れないうちに質疑のメモを書き残しておく。(脳内記憶補正なので誤りや抜けあるかも)


Q:Unicodeサロゲートペア対応は日本固有の問題なのか。外国製のソフトでUnicode対応を謳っていてもサロゲートペアは対応していないことが多い気がする。
A:WorldWideの問題。中国、台湾、インドなど今後必要な文字が増えるのは日本だけの問題ではない。既にBMP領域には空きが無く、今後追加される文字は基本的にサロゲートペアの考慮が必要になる。


Q:Win32 APIやクラスライブラリでの対応状況は。
A:.NET Framework 2.0以降ではNormalize/Unnormalize APIが実装されている。


Q:今後IVS対応が為された場合、フォントが必要な字体(異体字)を持っていないことが考えられるが?
A:IVSに限らず従来からの問題である。あるフォントに必要な字体がない場合は順番に他のフォントに切り替える仕組みを既に持っている(?)。特定の字体がフォントに含まれているかテストするAPIが存在する(?)。


Q:Unicode対応のベストプラクティスのような資料は無いか。
A:情報としては公開していない。どこまで対応すればいいか(Unicode合成列などの正規化)は用途に応じて変わるため一概に言えない。


Q:「邉」のIVDで登録されている異体字の他にも、「邉」の別字形が別コードポイントに存在するのでは?
A:そういうケースはありうる。一例として資料でも「邉」(U+9089)と「邊」(U+908A)の異体字の例を載せている。


Q:CJK互換文字とIVSの間で整理する向きはあるのか?
A:ない。今まさに議論されているところである。


Q:Hanyo IVDの登録は決定しているのか?
A:投票ではなく申請を受けて機械的に受理される仕組み。rejectの仕組みが無く申請されたら登録するしかない。


講師の田丸健三郎氏はISO/IEC JTC1 SC2のメンバーだと言っていたような気がしたけど、ちょっと確信(確認)がもてない。

*1:ケン・ルンデだと勝手に思い込んでた