文字コードをめぐる新しい動き(その1)
コンピュータで文字を扱う上で、もっとも重要になるのが文字コードです。文字コードの変更は、便利な反面、トラブルの可能性も高めます。
現在日本における最新の文字コードの規格は2013年に改定されたJIS X 0213です。今回はこの規格について見ていきますが、その前に、これまで作られた日本の文字コードをざっと眺めておきましょう。
初めての漢字コード
コンピュータでは当初漢字は使うことができませんでした。漢字の数はアルファベットなどに比べてはるかに多く、それを扱うだけの能力がなかったからです。
コンピュータの性能が上がるにしたがって、各メーカーはそれぞれ独自の文字コードを作り、漢字への対応を進めていきましたが、情報交換という観点で考えれば日本語共通の文字コードがぜひとも必要です。
そこで、JIS原案委員会は標準的に使われる漢字6,349字を選定、さらに漢字以外の文字453字を加えて6,802字の文字コード「JIS C 6226」を1978年に作りました。これが後にJIS X 0208と呼ばれることになる、日本においてもっとも基本的な文字コードです。
当時はパソコンが登場したころであり、多くの文字を扱えないコンピュータも少なくありませんでした。そこで、JIS C 6226(JIS X 0208)では、6,349字の漢字を第一水準と第二水準に分け、第二水準はオプションで扱えるようにしました。
JIS規格は制定や改正されたときから5年が経過するまでに見直しされなければならないと工業標準化法で定められています。文字コードも、5年という期限には必ずしも収まらないながら、数年ごとに見直しが行われています。
JIS X 0208が制定後初めて改正されたのは1983年のこと。この時に、その後の日本語文字コードの運命を左右する大きな問題が起きました。JISの規格票では文字コードの例示字体が印刷されますが、この例示字形のうち二百数十字が変更されたのです。さらに、同じ意味で形が異なる二つの文字(たとえば壷と壺、檜と桧など)が収録されていたものに関して、そのうちの22組の番号が入れ替えられました。
この二つの改正は、パソコンにおける日本語に大きな影響を与えるものでした。字体の変更では、それまでの正字と呼ばれる一般的な文字に替えて印刷ではまず使われなかった略字体を採用するという方針が強く打ち出されました。よく知られているのは、森鴎外の「鴎」の字が略字体になったことですが、ニーズの高い字体から低い字体に変更されたわけですから、抵抗も大きく、メーカーによっては83JISを採用せずに78JISを使い続けるという動きもありました。
文字数の追求
JIS X 0208は、使用頻度の高い6,000以上の漢字を収録した本格的な日本語文字コードであり、これだけでも日常使われる日本語の多くが表現できます。ただし、人名や地名をきちんと表すためにはまだ十分とは言えません。また、学術出版物で使われる文字などを表す場合も不足するのは否めません。
JIS X 0208が作られた当初からこういった声は存在しており、コンピュータの性能が向上してくるにつれて、より多くの文字をサポートしてほしいという要求も高まっていきました。
JIS X 0208の二度目の改定は1990年に行われましたが、その時、JIS X 0208とは別に新しい文字コードとしてJIS X 0212が作られました。俗に言う「補助漢字」です。補助漢字は、JIS X 0208に収録されていない6,000字以上の文字を収録しており、これを使えば略字体しか使えなかった「鴎」などの問題も解決します。
なぜJIS X 0208で文字を追加するのではなく新たな文字コードを作ったかというと、JIS X 0208にはこれだけの文字を収録する余地がなかったからでした。JIS X 0208は、2バイトの文字コードであり、二つのバイトを掛け合わせて文字を特定します。ただし、1バイトに付き94字しか使えないという制約があり、94×94=8,836字までしか文字は入りません。
1983年の時点でJIS X 0208にはすでに7,000字近い文字(1990年時点で6,879字)が収録されていますが、あと2,000字近くは追加できるはずです。しかし、実際には空いている部分にフォントメーカーなどが外字を入れていたため、それほど多くの文字は入れられません。そこで、別の文字コードとして補助漢字が作られたわけです。
しかし、日本のパソコンではシフトJISという別の文字コードが一般的に使われるようになっていました。シフトJISは、文字の配列はJIS X 0208をそのまま使うものの、94×94の2バイト掛け合わせではなく、47×190という変則的なコードです。1バイト目をASCII文字と重ならないようにすることで、コードを切り替える必要がないというのがメリットですが、他の文字コードと共存できないという問題もあります。つまり、シフトJISを使っている限り補助漢字は使えないのです。
そのため、せっかく作られた補助漢字も、ユニコードでサポートされ、さらにWindows 98にユニコード対応のMS明朝・MSゴシックが搭載されるまで使われることはありませんでした。現在も、補助漢字を収録するフォントは少なく、活用されているとは言えません。
文字数の拡張ということでは、補助漢字のほかにもう一つの文字コードが作られています。それが2000年に作られたJIS X 0213です。JIS X 0213は、JIS X0208と併用して使うことを想定した4,344字(後に4,354字)の文字集合を規定しています。
この規格も補助漢字と同様、ユニコードに採用されることで実際に使われるという方向をとることになりましたが、補助漢字と異なるのは収録する文字の妥当性を可能な限り検証したという点です。
1990年代以降、文字数を増やす方向で進められてきた日本の文字コード改良ですが、ここにきて文字の正当性ということが大きくクローズアップされるようになってきています。
(田村 2006.2.27初出)
(田村 2016.5.25更新)