夏休みの自由研究

忙しい時ほど別のことがしたくなる。


コミケカタログのCD-ROM版にはシフトJIS版データの他、Unicode版データも格納されている。


コミケットカタログブラウザ76 データファイル 仕様書(DATA.TXT)によるとシフトJIS版のデータは「半角カナと外字が含まれるので正確には Windows-31J」「JIS C6226-1978 と NEC PC-98外字。(いわゆる)シフトJISコード」と記載があり、この文字セットに含まれないものは「仝」「■」などで置き換えられている。*1
Unicode版データと比較して、どんな特殊な字が使われているのか抜き出してみた。


出現頻度文字Unicode
29²U+00B2上添字の2
23U+2665ハートマーク
9*U+002Aアスタリスク
8³U+00B3上添字の3
8éU+00E9アキュートアクセント付きe
6U+207A上添字のプラス記号
4U+266F【音楽】シャープ記号
3U+2082下添字の2
3U+266A【音楽】八分音符
3U+271Dラテン十字架
2U+24B6丸囲みのA
1©U+00A9著作権マーク
1ÑU+00D1チルダ付きN
1ĈU+0108曲折アクセント付きC
1ēU+0113マクロン付きe
1U+21D4左右二重矢印
1U+221D【数学】比例記号
1U+222B【数学】積分記号
1U+2252【数学】ほとんど等しい
1U+2740白いフロレット(花の絵文字)
1U+56CD喜喜(いわゆるラーメンマーク)
1U+9C02魚則(イカ


漢字については字体の違いでは登録していないようだ。あくまでWindows-31Jに含まれない字種という観点でのみ登録しているらしい。


ちなみに「囍」は 金X47a 囍組(よろこびぐみ)、「鰂」は 日せ18a 鰂香舎(そくこうしゃ) で使われている。


ハートマークのような比較的メジャーな記号はやむを得まいが、その他マイナーな記号を使うのはどうなんだろうなあ。シャープ記号は【一般記号の】#(縦棒が斜め)と「音楽の」♯(横棒が斜め)があり、似て非なるものである。手書きの申込書をパンチする際に見間違えた可能性があるが、金R02a F# や 土ポ23a StudioF# などは、サークルカットを見る限り縦棒が斜めであり一般記号に見えるが、F#と言う文字の組み合わせからサークルの人は音楽の♯を想定しているのかもしれない。パンチ担当者が深読みして気を利かせたんだろうか。
土ク48a Rareness# などは明らかに横棒が斜めだし、ジャンル的(VOCALOID)にも音楽の♯とみて間違いがなかろう。ただし 金あ46 #(シャープ一字のみ)のようなケースは参考にできる補助データがないため判断が難しい。サークルカットでは縦棒が斜めだが、データ的には音楽の♯で入力されている。


土N42a Presence∝fTVA は、シフトJIS版では「∞」で入力されている。「∝」(比例)と「∞」(無限大)は全く意味が違う字なのだから、代替できるとは思えないのだが。ここは「■」とかにすべきじゃなかったのか。



いずれにしても、データ入力担当者の計り知れない気苦労が偲ばれるデータではある。


なお冊子版のはみ出しコーナーp.84にて、こんな記載もある。


【オンライン申込で使える文字】オンライン申込においては、使える文字に制約があります。この理由は、抽選洩れ返金の払出証書作成において、貯金事務センターのシステムで使える文字に制約があるからです。例えば、「遙かなる時空の中で」は「遙」が使用できず、お問い合わせをいただきましたが、申しわけありませんが「遥」で代用してください。 ∵ 配置責任者
確かにこういうのは難しいね。固有名詞だと字体を変えるだけでも間抜けに見えちゃうこともあるし。
「遙」がだめということは貯金事務センターのシステムというのはJIS78しか使えないシステムなのかね。やっぱりおいそれとリプレースが効かない古いメインフレームとかが中枢に残ってたりするんだろうか…。

*1:厳密に言うとJIS X 0208-1990 + NEC特殊文字+NEC選定IBM拡張文字+IBM拡張文字、つまりいわゆるWindows標準文字セット=コードページ932のことだと思われる