文字コードをめぐる新しい動き(その2)
必要な文字数とは
これまで日本語の文字コードは何回も改正されてきましたが、そのたびに批判もついて回ります。そもそも文字コードについてはさまざまな意見があり、だれもが納得するものを作るのは難しいでしょう。ただ、結局のところ、問題は「文字数」および「字形」が妥当かどうかという点に集約されるようです。
日本語を記述する際にどれだけの文字が必要なのかというのは、なかなか答えが出ない問題です。JIS X 0208の第一水準と第二水準漢字だけでも日常生活で使うほとんどの漢字はまかなえますが、人名や固有名詞、あるいは古典文献などを扱うには十分ではありません。
現在、JIS X 0208以外に6,067字収録のJIS X 0212、4,354字収録の0213があり、ユニコードを利用することで、0208とあわせてそれぞれ11,000~13,000字程度の文字を扱うことができますが、これで全ての用途がまかなえるかというとそうとも言い切れないのです。
たとえば異体字の問題があります。漢字には、読みも意味も同じ、しかも同じような状況で使うのに、形が微妙に異なるものが存在します。有名な例では、「高」と「はしご高」、「辺」と「邊」や「邉」などがあります。
こういった異体字は人名や固有名詞で必要になることが多いのですが、世の中にある異体字を全て拾っていくとそれだけで膨大な数です。JIS X 0212や0213にも、0208に収録されている文字の異体字が少なからず含まれていますが、それでも十分ではないのです。
ただし、情報管理という観点から考えると、使える文字が多ければよいというものでもありません。仮にこれらの文字を含む語句を検索しようとした場合、どの異体字で検索するかによってヒットしたりしなかったりということになってしまいます。「渡辺」で検索したら「渡邉」や「渡邊」は引っかからなかったというのでは、せっかくのデジタルデータのメリットが損なわれてしまうのです。
包摂という考え方
微妙な違いの異体字をどんどん文字コードに取り込んでいけば、確かに情報の幅は広がりますが、それだけ情報のデジタルデータとしての質は落ちてしまいます。そこで登場するのが「包摂」という考え方です。
包摂とは、同じ意味、同じ使い方をする文字を同じものとして扱うことです。たとえば「辺」という字が「邊」や「邉」を包摂しているとします。この場合、「辺」と「邊」「邉」の違いはデザイン的な差ということになり、これらの文字に相当する文字コードのコードポイントは1つだけになります。「邊」や「邉」を使いたければこういったデザインの書体を用意すればよいというわけです。情報管理という点で言えばこのほうが楽なのは言うまでもないでしょう。
とはいえ、現実問題として区別をつけなければならない場面は少なくありません。特に印刷物だと「包摂されているから同じ字と思ってくれ」では通用しないケースが多いのは皆さんご承知の通りです。
日本語文字コードを考える場合、包摂をどうするか、どこからどこまでを包摂として一まとめにするのかが最大の問題と言っても過言ではありません。そのため、JIS X 0213では収録した文字の典拠や包摂基準について詳細な説明がなされています。
考えてみれば、規格票の例示字体に略字体を採用して大きな問題を生んだ83JISにしても、例示字体は包摂されたものであって、実際のフォントは旧字体でもかまわなかったと考えれば、文字コードだけを責めるわけにはいかないという考えも成り立ちます。
文字コードから離れた異体字処理
最近、この問題を別の方向から解決する技術が登場してきました。それがOpenTypeフォントです。
OpenTypeフォントは、もちろん文字コードをサポートしていますが、それとは別に異体字を認識するタグを用意しており、文字コードで扱えない異体字を扱うことができるようになっています。たとえばInDesign(インデザイン)の字形パレットを使えば、文字コードでは包摂されている(つまり同じ字とみなされている)文字や文字コードが振られていない文字も指定することが可能です。
OpenTypeフォントの登場は、文字コードのあり方も変えようとしています。これまでは、包摂されたものだと文字が区別できなくなり、結局使えないというのが大きな問題だったのですが、インターネットなど通常のデジタル情報レベルでは包摂された文字を使い、組版レベルで異体字を区別して使えれば少なくとも印刷物での問題は解決します。
もっとも、今のところ異体字タグやInDesignの文字処理機能に問題がなくはないので、全て解決というわけにはいきませんが、問題を解決する仕組みは一応用意されたと言ってもいいでしょう。
文字コードにおける文字数の問題については、今のところ一段落といった感じで、これまでのような大きな追加は当分なさそうです。一方、文字コードのもう一つのポイントである字形については、DTPにも重大な影響を及ぼす大変な問題が生じようとしています。
(田村 2006.3.6初出)
(田村 2016.5.25更新)