Unicode

出典: フリー百科事典『ウィキペディア(Wikipedia)』
UTFから転送)
移動先: 案内検索

テンプレート:Redirect テンプレート:JIS2004

テンプレート:Table Unicode Unicode(ユニコード)とは、符号化文字集合文字符号化方式などを定めた、文字コードの業界規格である。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。

1980年代に、Starワークステーションの日本語化 (J-Star) などを行ったゼロックス社が提唱し、マイクロソフトアップルIBMサン・マイクロシステムズヒューレット・パッカードジャストシステムなどが参加するユニコードコンソーシアムにより作られた。1993年に、国際標準との一致が図られ、DIS 10646の当初案から大幅に変更されて、Unicodeと概ね[1]互換のISO/IEC 10646が制定された。

概要

Unicode は世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、UnixWindowsMac OS XPlan 9[2]Javaなどで利用されている。

Unicodeでは、文字集合中の文字をあらわす符号位置(コードポイント、符号点を参照)に、「Unicodeスカラ値」という非負整数値が割り振られている。Unicodeスカラ値は "U+" の後に十六進法でその値を続けることで表す。BMP内の符号位置は U+0000 〜 U+FFFF の4桁で表すことができ、SMP以降は5桁または6桁を必要とする。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初より JIS X 0201JIS X 0208補助漢字を、Unicode 3.1 では JIS X 0213 の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国日本韓国の各規格のテンプレート:仮リンクCJK統合漢字としたことは大きな議論となった。

Unicodeでは文字符号化方式も標準化したため、従来見られたShift JISEUC-JPとの間の混乱のようなものは回避されている。

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換(ラウンドトリップ変換)において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在したり、Shift JISの実態であるCP932EUC-JPの亜種であるCP51932とeucJP-MSなど、対応が違うために文字化けを起こすことがある。

文字集合

Unicodeに収録されている文字については、下に記載した#一覧の「コード順分類一覧」を参照。

文字符号化スキーム

テンプレート:Seealso Unicodeでは文字符号化方式を「文字符号化スキーム」(Character Encoding Scheme) と言う。

UTF-7

テンプレート:Main

UTF-16(後述)で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化スキームを行う。RFC 2152で定められており、Unicode標準及びUnicodeの関連仕様には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。
UTF-8

テンプレート:Main

可変長(1-4バイト)の8ビット符号単位で表現する文字符号化形式及び文字符号化スキーム。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化スキームやUTF-32符号化スキームとの変換・逆変換に際して乗除算などの負荷の高い処理が必要ないなどの特長を持ち、インターネットではもっとも一般的に利用されている。
UTF-8符号化スキームについて、日本国内でのみバイト順マーク (BOM) がついているものをUTF-8、ついていないものをUTF-8Nとして区別することがあるが、国際的には認知されていない。もともと8ビットを符号単位とするUTF-8ではBOMを付与する必要はないが、UTF-8であることが識別できるようにデータストリームの先頭に EF BB BF(U+FEFFのUTF-8での表現)の3バイトが付与されることがある。Windowsのメモ帳で作成した「Unicodeテキスト」にはBOMが付与される。Internet Explorerでは、BOMのついていないUTF-8の文書を読み込むと(日本語版の場合)Shift_JISだと誤認する一方で、BOMがついていると有効なデータとして受け付けないアプリケーションも存在する。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化スキーム等における「真の意味でのBOM」と類似する存在であるがゆえに慣用的にこう呼ばれているに過ぎない。
UTF-16

テンプレート:Main

BMP文字を16ビット符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い16ビット符号単位二つで表現する文字符号化形式及び文字符号化スキーム。Windows XPなどの近年のOSの内部では、UTF-16符号化形式が使われている。UCS-2ともBMPの範囲で互換性がある。
UTF-16符号化スキームでは、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが0xFF, 0xFEならリトルエンディアン、0xFE, 0xFFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化スキームをUTF-16BEリトルエンディアンの符号化スキームをUTF-16LEとして区別することもある。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-16BEUTF-16LEを指定している場合にはBOMを付与することは許容されない(ZERO WIDTH NON-BREAKING SPACEとして扱う)。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化スキームのことを指す。TCP/IPネットワークではプロトコルヘッダやMIME等の手段で符号化スキームが指定されずBOMも付与されない場合、ビッグエンディアンに決められている(→ エンディアン)。
UTF-32

テンプレート:Main

Unicodeのすべての符号位置を単一長の符号単位として32ビットで表現する文字符号化形式及び文字符号化スキーム。実際に使われるのは21ビット(Unicodeの符号空間がU+10FFFFまでであるため)。この21ビットの範囲内ではUCS-4と互換性がある。UTF-32符号化スキームでもUTF-16符号化スキームと同じく、ビッグエンディアンリトルエンディアンが存在し、それぞれUTF-32BEUTF-32LEと呼ばれる。プロトコル若しくはアプリケーションの設定などの手段で符号化スキームにUTF-32BEUTF-32LEを指定している場合にはBOMを付与することは許容されない(ZERO WIDTH NON-BREAKING SPACEとして扱う)。単純な符号化スキームであるが、テキストファイルなどではファイルのサイズが大きくなるため(全てBMPの文字からなる文章の場合はUTF-16符号スキームの2倍のサイズとなる)使用されることは稀である。そのためかMicrosoft Officeでの「エンコードされたテキストファイル」の読み書きはこの符号化スキームには未だ対応していない。フリーウェアおよびシェアウェアの多数の符号化スキームに対応しているテキストエディタでもこの符号化スキームには対応していないものが存在する。ただしすべてのUnicodeを扱う処理を行う場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。
UTF-16符号化スキームなどと同様にUTF-32符号化スキームにもBOMがあり、データストリームの先頭に付される。先頭の4バイトが0xFF, 0xFE, 0x00, 0x00ならリトルエンディアン、0x00, 0x00, 0xFE, 0xFFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。

以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていたが、ドラフト段階で破棄されているため重複にはならない。

UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイト8ビットオクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(PDP-10ACOS-6など)であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つのを余った2ビットで識別するため、代用符号位置は使わない。

以下はドラフト段階で破棄された規格案。

UTF-5
国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化スキーム。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長コード(1-5バイト)の8ビット符号単位で表現する文字符号化形式または文字符号化スキーム。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。

拡張領域

サロゲートペア

1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 65,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字等々である。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としたシステム(たとえばJavaのchar型)をなるべくそのままに、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペアは16ビットUnicodeの領域1024文字分を2つ使い(前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF)、各々1個ずつからなるペアで1024 × 1024 = 1,048,576文字を表す。これは丁度16面ぶんであり、第1面〜第16面(U+10000 〜 U+10FFFF)の文字をこれで表すこととした。加えて第0面(基本多言語面)も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字ぶんの空間が確保されたことになる。

サロゲートはUnicodeの符号位置の U+10000..U+10FFFF の範囲を16ビットユニットのペア(2つ)で表現する集合で、最初の16ビットユニットは high surrogate で、二番目は low surrogate となる。high surrogates は U+D800..U+DBFF の範囲、low surrogates は U+DC00..U+DFFF の範囲である。

サロゲートのエンコーディングは、

       $hi = ($uni - 0x10000) / 0x400 + 0xD800;
       $lo = ($uni - 0x10000) % 0x400 + 0xDC00;

デコードは、

       $uni = 0x10000 + ($hi - 0xD800) * 0x400 + ($lo - 0xDC00);

厳密には正確ではないが、UTF-16UCS-2をサロゲートペアで拡張したようなものであると言える。またUnicodeは(現在のところ)UCS-4のうち、サロゲートペアで表現可能な空間のみを使うものとし(異体字セレクタなどは空間を別の軸の向きに広げるものとされている)ISO/IEC 10646もUnicodeに追随するような形で改訂されている。

サロゲートペアによって拡張された符号位置は、UTF-32ではそのまま表現できる。UTF-8では、通常4オクテット使って表現される。UTF-16ではサロゲートペアを使って表現する。UTF-8を使っているが4オクテット以上のオクテット列を扱えない、といった場合に、サロゲートペアをそのままUTF-8で表現したような表現が使われることがあり、CESU-8と言う(詳しくはUTF-8#サロゲートペアの扱いを参照)。

サロゲートペア (Surrogate Pair) の日本語訳は代用対とされている。

拡張領域に含まれる文字

現在第1面はSupplementary Multilingual Plane(SMPと略される。追加多言語面。主に古代文字が収録されている)、第2面はSupplementary Ideographic Plane(SIP、追加漢字面。漢字専用領域)、第14面はSupplementary Special-purpose Plane(SSP、追加特殊用途面。制御コード専用領域)、第15面および第16面は私用面(BMPのU+E000-U+F8FFの領域の拡張)と決められている。また、第3面はTertiary Ideographic Plane(直訳すると第三の漢字面)で、2009年3月現在では1字も収録されていないが、古代漢字や甲骨文字が収録される予定である。

第4面-第13面は未使用で将来どのような目的で使用するのかすら決まっていない。

日本では2000年にJIS X 0208を拡張する目的でJIS X 0213(いわゆるJIS第3第4水準)が制定されたが、この際、新たに採用された文字でUnicodeに無かったものの一部は、BMPに収録できず、第2面への収録となった(最終対応は2002年)。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには追加漢字面をサポートしたOSフォントアプリケーションが必要となる。Shift_JIS等、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要である。

常用漢字の2010年改定で追加された字のうち「テンプレート:JIS2004フォント」はU+20B9Fで追加漢字面に含まれる。そのため、改定後の常用漢字完全サポートを謳う場合、Unicodeに対応していて更にこの拡張領域にも対応している必要があると言える。ただ、現状ではこの字はJIS X 0208にも含まれていて、基本多言語面に含まれる異体字の「叱」(U+53F1) で代用されることが多い。

歴史

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32bitで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にユニコードと呼ばれるようになる世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。

1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびUnicodeコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果1991年末になって「ISO 10646=Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO) の第1版として完成した。

Unicodeの最初の印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。

1992年CJK統合漢字Unified Repertoire and Ordering (URO) 第二版が完成し、これを取り込んだ(ただしUROには若干の間違いが発見されており、それらの修正が行われている。)DIS 10646第2版が5月30日国際投票の結果可決された。

1993年5月1日 「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後ユニコードとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。

各バージョンとその特徴

ユニコードのバージョンは、メジャーバージョン (the major version)、マイナーバージョン (the minor version)、アップデートバージョン (the update version) の3つの部分から構成され、ピリオドでつなげて表示される。但しマイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときに改定される。ユニコードのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもユニコードについての正式なドキュメントであるとされている。新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合および重要なマイナーバージョンの改定があった場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。

年月日 バージョン 収録文字数 概要 日本語における主要な追加文字
1991年10月 Unicode 1.0.0

[3]

7,161 初期バージョン、16ビットの文字コード JIS X 0201
1992年6月 Unicode 1.0.1

[4]

28,359 CJK統合漢字を導入 JIS X 0208JIS X 0212
1993年6月 Unicode 1.1.0

[5]

34,233 ISO/IEC 10646-1:1993にあわせ変更
1993年7月 Unicode 1.1.5

[6]

1996年7月 Unicode 2.0.0

[7]

38,950 ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う (Amd.5)、サロゲートペア(代用対)を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張 (Amd.1)
1998年5月 Unicode 2.1.0

[8]

38,952 ユーロ記号と正誤表を追加
1998年5月 Unicode 2.1.2

[9]

1998年8月 Unicode 2.1.5

[10]

1998年10月 Unicode 2.1.8

[11]

1999年4月 Unicode 2.1.9

[12]

1999年9月 Unicode 3.0.0

[13]

49,259 ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字拡張Aで漢字6582字を追加 (Amd.17) JIS X 0213の一部(地名や人名などに用いられる漢字)
2000年8月 Unicode 3.0.1

[14]

2001年3月 Unicode 3.1.0

[15]

94,205 ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字の拡張Bで漢字42711字を追加 JIS X 0213の一部(地名や人名などに用いられる漢字)
2001年8月 Unicode 3.1.1

[16]

2002年3月 Unicode 3.2.0

[17]

95,221 ISO/IEC 10646-1:2000の追補Amd.1に対応 JIS X 0213(正式対応)
2003年4月 Unicode 4.0.0

[18]

96,447 ISO/IEC 10646:2003に対応
2004年5月 Unicode 4.0.1

[19]

2005年3月31日 Unicode 4.1.0

[20]

97,720 ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月14日 Unicode 5.0.0

[21]

99,089 ISO/IEC 10646:2003の追補Amd.2とシンド語(Amd.3に含まれる)に対応
2008年4月4日

[22]

Unicode 5.1.0 100,713 ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める

[23]

麻雀牌、割り算の記号、電話機の星印Adobe-Japan1-6の漢字字形

[24]

2009年10月1日 Unicode 5.2.0

[25]

107,361 ISO/IEC 10646:2003の追補Amd.6までに対応 ARIB外字
2010年10月11日 Unicode 6.0.0

[26]

109,449 ISO/IEC 10646:2010 携帯電話の絵文字
2012年1月31日 Unicode 6.1.0

[27]

110,181 ISO/IEC 10646:2012
2012年9月26日 Unicode 6.2.0

[28]

110,182 新トルコリラの通貨記号の追加など
2013年9月30日 Unicode 6.3.0

[29]

110,187
2014年6月16日 Unicode 7.0.0

[30]

113,021 ISO/IEC 10646:2012の追補Amd.1とAmd.2に対応。ルーブルアゼルバイジャン・マナトの通貨記号、北米・中国・インド・アフリカの言語のための歴史的なスクリプトの追加。 約250字の絵文字の追加。

構成要素のバージョン

ユニコードのバージョンには、上記のような「ユニコードの規格全体に付けられたバージョン」の他に「ユニコードを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、ユニコードを構成する各面ごとに付けられたバージョンやユニコードに収録されないこととされたスクリプトのリスト (NOR = Not The Roadmap) に付けられたバージョンなどが存在する。

日付 全体[31] BMP[32] SMP[33] SIP[34] TIP[35] SSP[36] NOR[37]
1991年10月 1.0.0[38]
1992年6月 1.0.1[39]
1993年6月 1.1.0[40]
1993年7月 1.1.5[41]
1996年7月 2.0.0[42]
1998年5月 2.1.0[43]
1998年5月 2.1.2[44]
1998年8月 2.1.5[45]
1998年10月 2.1.8[46]
1999年4月 2.1.9[47]
1999年9月 3.0.0[48]
2000年8月 3.0.1[49]
2001年3月 3.1.0[50]
2001年8月 3.1.1[51]
2001年10月10日 3.0[52] 3.0[53] 3.0[54] 1.0[55]
2001年10月12日 3.1[56]
2001年10月27日 3.1[57]
2001年11月27日 3.0[58]
2002年1月22日 3.2[59] 3.1[60]
2002年1月29日 3.3[61]
2002年2月5日 3.4[62]
2002年3月 3.2.0[63]
2002年4月3日 3.2[64]
2002年4月4日 3.5[65]
2002年6月7日 3.6[66] 3.3[67]
2002年6月23日 3.7[68]
2002年10月2日 3.8[69]
2002年10月28日 3.9[70]
2002年11月11日 3.1[71]
2002年12月3日 3.10[72] 3.4[73]

</br> 3.5[74]

2002年12月11日 3.11[75]
2003年3月12日 3.12[76] 3.6[77]
2003年3月15日 3.7[78]
2003年4月 4.0.0[79]
2003年4月16日 4.0[80] 4.0[81] 4.0[82] 4.0[83] 4.0[84]
2003年5月4日 4.1[85]
2003年5月16日 4.1[86]
2003年6月18日 4.2[87] 4.1[88]
2003年7月15日 4.1[89]
2003年8月19日 4.3[90]
2003年9月11日 4.4[91] 4.2[92]
2003年9月20日 4.5[93]
2003年10月22日 4.6[94]
2003年10月31日 4.3[95]
2003年12月23日 4.7[96] 4.4[97]
2004年5月 4.0.1[98]
2004年5月27日 4.5[99]
2004年6月24日 4.8[100] 4.6[101]
2004年7月3日 4.7[102]
2004年12月1日 4.1[103]
2005年1月27日 4.2[104]
2005年1月28日 4.9[105] 4.8[106]
2005年3月31日 4.1.0[107] 4.10[108] 4.9[109]
2005年5月27日 4.10[110] 4.2[111]
2005年6月10日 4.11[112] 4.11[113]
2005年6月27日 4.12[114] 4.12[115] 4.3[116] 4.2[117] 4.3[118]
2005年8月1日 4.13[119] 4.13[120]
2005年9月6日 4.14[121]
2005年9月14日 4.15[122]
2005年9月17日 4.14[123]
2005年9月19日 4.16[124]
2005年12月8日 4.15[125]
2006年1月11日 4.17[126] 4.16[127]
2006年4月17日 4.18[128] 4.17[129] 4.4[130]
2006年4月28日 4.4[131]
2006年7月14日 5.0.0[132]
2006年9月21日 5.0[133] 5.0[134] 5.0[135] 5.0[136] 5.0[137]
2006年9月29日 5.0.1[138] 5.0.1[139]
2007年3月14日 5.0.1[140]
2007年4月11日 5.0.2[141] 5.0.2[142]
2007年5月5日 5.0.3[143] 5.0.3[144]
2007年7月24日 5.0.4[145] 5.0.4[146] 5.0.1[147]
2007年8月22日 5.0.5[148]
2007年8月29日 5.0.5[149]
2008年1月15日 5.0.6[150]
2008年1月31日 5.0.6[151]
2008年2月14日 5.0.7[152] 5.0.7[153]
2008年4月4日 5.1.0[154] 5.1.0[155] 5.1.0[156] 5.1.0[157] 5.1.0[158] 5.1.0[159]
2008年4月25日 5.1.1[160] 5.1.1[161] 5.1.0[162] 5.1.1[163]
2008年8月12日 5.1.2[164] 5.1.2[165]
2008年8月19日 5.1.3[166]
2008年10月17日 5.1.4[167] 5.1.3[168] 5.1.1[169]
2009年2月4日 5.1.5[170] 5.1.4[171]
2009年2月26日 5.1.1[172]
2009年4月22日 5.1.2[173]
2009年4月24日 5.1.5[174]
2009年10月1日 5.2.0[175] 5.2.0[176] 5.2.0[177] 5.2.0[178] 5.2.0[179] 5.2.0[180] 5.2.0[181]
2009年11月18日 5.2.1[182]
2010年2月5日 5.2.1[183]
2010年2月10日 5.2.2[184]
2010年2月23日 5.2.3[185]
2010年4月23日 5.2.2[186] 5.2.4[187]
2010年5月12日 5.2.5[188]
2010年6月24日 5.2.6[189]
2010年7月27日 5.2.7[190]
2010年10月11日 6.0.0[191] 6.0.0[192] 6.0.0[193] 6.0.0[194] 6.0.0[195] 6.0.0[196] 6.0.0[197]
2010年12月6日 6.0.1[198]
2011年1月9日 6.0.2[199]
2011年1月14日 6.0.1[200]
2011年1月27日 6.0.2[201] 6.0.3[202] 6.0.1[203] 6.0.1[204] 6.0.1[205] 6.0.1[206]
2011年3月18日 6.0.4[207]
2011年5月24日 6.0.5[208]
2011年6月23日 6.0.3[209] 6.0.6[210]
2011年8月1日 6.0.7[211]
2011年8月15日 6.0.8[212]
2011年8月24日 6.0.9[213]
2011年11月15日 6.0.10[214]
2011年11月29日 6.0.11[215]
2011年12月19日 6.0.2[216]
2012年1月6日 6.0.12[217]
2012年1月31日 6.1.0[218]
2012年2月1日 6.1.0[219] 6.1.0[220] 6.1.0[221] 6.1.0[222] 6.1.0[223] 6.1.0[224]
2012年2月15日 6.1.1[225]
2012年5月4日 6.1.2[226]
2012年7月30日 6.1.3[227]
2012年8月27日 6.1.4[228]
2012年9月13日 6.1.1[229] 6.1.5[230]
2012年9月26日 6.2.0[231]
2012年9月27日 6.2.0[232] 6.2.0[233] 6.2.0[234] 6.2.0[235] 6.2.0[236] 6.2.0[237]
2012年10月16日 6.2.1[238] 6.2.1[239]
2012年12月2日 6.2.2[240] 6.2.2[241]
2013年3月19日 6.2.3[242]
2013年5月4日 6.2.4[243]
2013年5月23日 6.2.5[244]
2013年7月24日 6.2.6[245]
2013年9月30日 6.3.0[246]
2013年10月28日 6.3.0[247] 6.3.0[248] 6.3.0[249] 6.3.0[250] 6.3.0[251] 6.3.0[252]
2014年2月19日 6.3.1[253] 6.3.1[254]
2014年6月16日 7.0.0[255]
2014年8月7日 7.0.0[256] 7.0.0[257] 7.0.0[258] 7.0.0[259] 7.0.0[260] 7.0.0[261]

Unicodeの諸問題

バージョンごとの非互換性

Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。

そのうち最大のものがUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0でCJK統合漢字拡張A、Unicode 4.0で六十四卦が割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない[262]。JCS委員長の芝野耕司はUnicodeに日本語の漢字を収録させる議論の中で、ハングル大移動について「韓国のとった滅茶苦茶な行動」と述べている[263]

日本語環境でのUnicodeの諸問題

YEN SIGN 問題

テンプレート:未検証

Shift_JIS では JIS X 0201 における円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "テンプレート:Backslash" に相当し、C言語などのエスケープシーケンスに使われる事から、この文字のコードを変更すると問題が起きる。そのため Unicode を利用するアプリケーションは U+007F 以下のコードに関しては移動させないという暗黙のルールができている。

そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、日本語環境での表示上は 0x5C の位置で円記号を用いることができる。

この問題は日本語環境に限った事ではない。もともと、ISO646 上で 0x5C を含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国ではウォン記号 (WON SIGN, U+20A9, "")、デンマークノルウェーではストローク付きO (LATIN CAPITAL LETTER O WITH STROKE, U+00D8, "Ø") 等である。

波ダッシュ・全角チルダ問題

JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "テンプレート:〜") に対応させているが、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "テンプレート:〜" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "~") に割り当てたため不整合が生じる。この結果、OS X 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と、Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。

また、マイクロソフトは同様に CENT SIGN (U+00A2, "¢") を FULLWIDTH CENT SIGN (U+FFE0, "¢") に、POUND SIGN (U+00A3, "£") を FULLWIDTH POUND SIGN (U+FFE1, "£") に、NOT SIGN (U+00AC, "¬") を FULLWIDTH NOT SIGN (U+FFE2, "¬") に、EM DASH (U+2014, "—") を HORIZONTAL BAR (U+2015, "―") に、DOUBLE VERTICAL LINE (U+2016, "‖") を PARALLEL TO (U+2225, "テンプレート:JIS2004フォント") に、MINUS SIGN (U+2212, "−") を FULLWIDTH HYPHEN-MINUS (U+FF0D, "-") に割り当てており、これらの変換時にも問題が起こる。Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している[264]

一覧

Unicodeの一覧

0000-0FFF
1000-1FFF
2000-2FFF
3000-3FFF
4000-4FFF
5000-5FFF
6000-6FFF
7000-7FFF

8000-8FFF
9000-9FFF
A000-AFFF
B000-BFFF
C000-CFFF
D000-DFFF
E000-EFFF
F000-FFFF

10000-10FFF
11000-11FFF
12000-12FFF
13000-13FFF
14000-14FFF
15000-15FFF
16000-16FFF
17000-17FFF

18000-18FFF
19000-19FFF
1A000-1AFFF
1B000-1BFFF
1C000-1CFFF
1D000-1DFFF
1E000-1EFFF
1F000-1FFFF

20000-20FFF
21000-21FFF
22000-22FFF
23000-23FFF
24000-24FFF
25000-25FFF
26000-26FFF
27000-27FFF

28000-28FFF
29000-29FFF
2A000-2AFFF
2B000-2BFFF
2C000-2CFFF
2D000-2DFFF
2E000-2EFFF
2F000-2FFFF

E0000-E0FFF

コード順ブロック一覧
範囲 名称 日本語名称
U+0000-007F[265] Basic Latin 基本ラテン文字ASCII互換)
U+0080-00FF[266] Latin-1 Supplement ラテン1補助
U+0100-017F[267] Latin Extended-A ラテン文字拡張A
U+0180-024F[268] Latin Extended-B ラテン文字拡張B
U+0250-02AF[269] IPA Extensions IPA拡張(国際音声記号)
U+02B0-02FF[270] Spacing Modifier Letters 前進を伴う修飾文字
U+0300-036F[271] Combining Diacritical Marks ダイアクリティカルマーク(合成可能)
U+0370-03FF[272] Greek and Coptic ギリシア文字及びコプト文字
U+0400-04FF[273] Cyrillic キリール文字(キリル文字)
U+0500-052F[274] Cyrillic Supplement キリール文字補助
U+0530-058F[275] Armenian アルメニア文字
U+0590-05FF[276] Hebrew ヘブライ文字
U+0600-06FF[277] Arabic アラビア文字
U+0700-074F[278] Syriac シリア文字
U+0750-077F[279] Arabic Supplement アラビア文字補助
U+0780-07BF[280] Thaana ターナ文字
U+07C0-07FF[281] NKo ンコ文字
U+0800-083F[282] Samaritan サマリア文字 *
U+0840-085F[283] Mandaic マンダ文字 *
U+08A0-08FF[284] Arabic Extended-A アラビア文字拡張A *
U+0900-097F[285] Devanagari デーヴァナーガリー文字
U+0980-09FF[286] Bengali ベンガル文字
U+0A00-0A7F[287] Gurmukhi グルムキー文字
U+0A80-0AFF[288] Gujarati グジャラート文字(グジャラーティー文字)
U+0B00-0B7F[289] Oriya オリヤー文字
U+0B80-0BFF[290] Tamil タミル文字
U+0C00-0C7F[291] Telugu テルグ文字
U+0C80-0CFF[292] Kannada カンナダ文字
U+0D00-0D7F[293] Malayalam マラヤーラム文字
U+0D80-0DFF[294] Sinhala シンハラ文字
U+0E00-0E7F[295] Thai タイ文字
U+0E80-0EFF[296] Lao ラオス文字(ラーオ文字)
U+0F00-0FFF[297] Tibetan チベット文字
U+1000-109F[298] Myanmar ミャンマー文字(ビルマ文字)
U+10A0-10FF[299] Georgian グルジア文字
U+1100-11FF[300] Hangul Jamo ハングル字母
U+1200-137F[301] Ethiopic エチオピア文字(ゲエズ文字)
U+1380-139F[302] Ethiopic Supplement エチオピア文字補助
U+13A0-13FF[303] Cherokee チェロキー文字
U+1400-167F[304] Unified Canadian Aboriginal Syllabics 統合カナダ先住民音節(カナダ先住民文字)
U+1680-169F[305] Ogham オガム文字
U+16A0-16FF[306] Runic ルーン文字
U+1700-171F[307] Tagalog タガログ文字(バイバイン)
U+1720-173F[308] Hanunoo ハヌノオ文字
U+1740-175F[309] Buhid ブヒッド文字
U+1760-177F[310] Tagbanwa タグバヌア文字(タグバヌワ文字)
U+1780-17FF[311] Khmer クメール文字
U+1800-18AF[312] Mongolian モンゴル文字
U+18B0-18FF[313] Unified Canadian Aboriginal Syllabics Extended 統合カナダ先住民音節拡張 *
U+1900-194F[314] Limbu リンブ文字
U+1950-197F[315] Tai Le タイ・ロ文字
U+1980-19DF[316] New Tai Lue 新タイ・ロ文字(西双版納タイ文字)
U+19E0-19FF[317] Khmer Symbols クメール文字用記号
U+1A00-1A1F[318] Buginese ブギス文字(ロンタラ文字)
U+1A20-1AAF[319] Tai Tham ラーンナー文字 *
U+1AB0-1AFF[320] Combining Diacritical Marks Extended ダイアクリティカルマーク(合成可能)拡張
U+1B00-1B7F[321] Balinese バリ文字
U+1B80-1BBF[322] Sundanese スンダ文字 *
U+1BC0-1BFF[323] Batak バタク文字 *
U+1C00-1C4F[324] Lepcha レプチャ文字 *
U+1C50-1C7F[325] Ol Chiki オル・チキ文字 *
U+1CC0-1CCF[326] Sundanese Supplement スンダ文字補助 *
U+1CD0-1CFF[327] Vedic Extensions ヴェーダ文字拡張 *
U+1D00-1D7F[328] Phonetic Extensions 音声記号拡張
U+1D80-1DBF[329] Phonetic Extensions Supplement 音声記号拡張補助
U+1DC0-1DFF[330] Combining Diacritical Marks Supplement ダイアクリティカルマーク(合成可能)補助
U+1E00-1EFF[331] Latin Extended Additional ラテン文字拡張追加
U+1F00-1FFF[332] Greek Extended ギリシア文字拡張
U+2000-206F[333] General Punctuation 一般句読点
U+2070-209F[334] Superscripts and Subscripts 上付き下付き
U+20A0-20CF[335] Currency Symbols 通貨記号
U+20D0-20FF[336] Combining Diacritical Marks for Symbols 記号用ダイアクリティカルマーク(合成可能)
U+2100-214F[337] Letterlike Symbols 文字様記号
U+2150-218F[338] Number Forms 数字に準じるもの
U+2190-21FF[339] Arrows 矢印
U+2200-22FF[340] Mathematical Operators 数学記号
U+2300-23FF[341] Miscellaneous Technical その他の技術用記号
U+2400-243F[342] Control Pictures 制御機能用記号
U+2440-245F[343] Optical Character Recognition 光学的文字認識、OCR
U+2460-24FF[344] Enclosed Alphanumerics 囲み英数字
U+2500-257F[345] Box Drawing 罫線素片
U+2580-259F[346] Block Elements ブロック要素
U+25A0-25FF[347] Geometric Shapes 幾何学模様
U+2600-26FF[348] Miscellaneous Symbols その他の記号
U+2700-27BF[349] Dingbats 装飾記号
U+27C0-27EF[350] Miscellaneous Mathematical Symbols-A その他の数学記号A
U+27F0-27FF[351] Supplemental Arrows-A 補助矢印A
U+2800-28FF[352] Braille Patterns 点字図形
U+2900-297F[353] Supplemental Arrows-B 補助矢印B
U+2980-29FF[354] Miscellaneous Mathematical Symbols-B その他の数学記号B
U+2A00-2AFF[355] Supplemental Mathematical Operators 補助数学記号
U+2B00-2BFF[356] Miscellaneous Symbols and Arrows その他の記号及び矢印
U+2C00-2C5F[357] Glagolitic グラゴル文字
U+2C60-2C7F[358] Latin Extended-C ラテン文字拡張C
U+2C80-2CFF[359] Coptic コプト文字
U+2D00-2D2F[360] Georgian Supplement グルジア文字補助
U+2D30-2D7F[361] Tifinagh ティフナグ文字
U+2D80-2DDF[362] Ethiopic Extended エチオピア文字拡張
U+2DE0-2DFF[363] Cyrillic Extended-A キリール文字拡張A *
U+2E00-2E7F[364] Supplemental Punctuation 補助句読点
U+2E80-2EFF[365] CJK Radicals Supplement CJK部首補助
U+2F00-2FDF[366] Kangxi Radicals 康熙部首
U+2FF0-2FFF[367] Ideographic Description Characters 漢字構成記述文字、IDC
U+3000-303F[368] CJK Symbols and Punctuation CJKの記号及び句読点
U+3040-309F[369] Hiragana 平仮名
U+30A0-30FF[370] Katakana 片仮名
U+3100-312F[371] Bopomofo 注音字母(注音符号)
U+3130-318F[372] Hangul Compatibility Jamo ハングル互換字母
U+3190-319F[373] Kanbun 漢文用記号(返り点
U+31A0-31BF[374] Bopomofo Extended 注音字母拡張
U+31C0-31EF[375] CJK Strokes CJKの筆画
U+31F0-31FF[376] Katakana Phonetic Extensions 片仮名拡張
U+3200-32FF[377] Enclosed CJK Letters and Months 囲みCJK文字・月
U+3300-33FF[378] CJK Compatibility CJK互換用文字
U+3400-4DBF[379] CJK Unified Ideographs Extension A CJK統合漢字拡張A
U+4DC0-4DFF[380] Yijing Hexagram Symbols 易経記号(六十四卦)
U+4E00-9FFF[381] CJK Unified Ideographs CJK統合漢字
U+A000-A48F[382] Yi Syllables イ文字(ロロ文字)
U+A490-A4CF[383] Yi Radicals イ文字部首
U+A4D0-A4FF[384] Lisu リス文字 *
U+A500-A63F[385] Vai ヴァイ文字 *
U+A640-A69F[386] Cyrillic Extended-B キリール文字拡張B *
U+A6A0-A6FF[387] Bamum バムン文字 *
U+A700-A71F[388] Modifier Tone Letters 声調修飾文字
U+A720-A7FF[389] Latin Extended-D ラテン文字拡張D
U+A800-A82F[390] Syloti Nagri シロティ・ナグリ文字
U+A830-A83F[391] Common Indic Number Forms 共通インド数字に準じるもの *
U+A840-A87F[392] Phags-pa パスパ文字
U+A880-A8DF[393] Saurashtra サウラーシュトラ文字 *
U+A8E0-A8FF[394] Devanagari Extended デーヴァナーガリー文字拡張 *
U+A900-A92F[395] Kayah Li カヤー文字 *
U+A930-A95F[396] Rejang レジャン文字 *
U+A960-A97F[397] Hangul Jamo Extended-A ハングル字母拡張A *
U+A980-A9DF[398] Javanese ジャワ文字 *
U+A9E0-A9FF[399] Myanmar Extended-B ミャンマー文字拡張B *
U+AA00-AA5F[400] Cham チャム文字 *
U+AA60-AA7F[401] Myanmar Extended-A ミャンマー文字拡張A *
U+AA80-AADF[402] Tai Viet タイ・ヴェト文字 *
U+AAE0-AAFF[403] Meetei Mayek Extensions マニプリ文字拡張 *
U+AB00-AB2F[404] Ethiopic Extended-A エチオピア文字拡張A *
U+AB30-AB6F[405] Latin Extended-E ラテン文字拡張E *
U+ABC0-ABFF[406] Meetei Mayek マニプリ文字 *
U+AC00-D7AF[407] Hangul Syllables ハングル音節文字
U+D7B0-D7FF[408] Hangul Jamo Extended-B ハングル字母拡張B *
U+D800-DB7F High Surrogates 上位代用符号位置
U+DB80-DBFF High Private Use Surrogates 上位私用代用符号位置
U+DC00-DFFF Low Surrogates 下位代用符号位置
U+E000-F8FF Private Use Area 私用領域(外字領域)
U+F900-FAFF[409] CJK Compatibility Ideographs CJK互換漢字
U+FB00-FB4F[410] Alphabetic Presentation Forms アルファベット表示形
U+FB50-FDFF[411] Arabic Presentation Forms-A アラビア表示形A
U+FE00-FE0F[412] Variation Selectors 字形選択子(異体字セレクタ)
U+FE10-FE1F[413] Vertical Forms 縦書き
U+FE20-FE2F[414] Combining Half Marks 半記号(合成可能)
U+FE30-FE4F[415] CJK Compatibility Forms CJK互換形
U+FE50-FE6F[416] Small Form Variants 小字形
U+FE70-FEFF[417] Arabic Presentation Forms-B アラビア表示形B
U+FF00-FFEF[418] Halfwidth and Fullwidth Forms 半角・全角形
U+FFF0-FFFF[419] Specials 特殊用途文字
U+10000-1007F[420] Linear B Syllabary 線文字B音節文字
U+10080-100FF[421] Linear B Ideograms 線文字B表意文字
U+10100-1013F[422] Aegean Numbers エーゲ数字
U+10140-1018F[423] Ancient Greek Numbers 古代ギリシア数字
U+10190-101CF[424] Ancient Symbols 古代記号 *
U+101D0-101FF[425] Phaistos Disc ファイストスの円盤の文字 *
U+10280-1029F[426] Lycian リキア文字 *
U+102A0-102DF[427] Carian カリア文字 *
U+102E0-102FF[428] Coptic Epact Numbers コプト・エパクト数字 *
U+10300-1032F[429] Old Italic 古代イタリア文字(古イタリア文字)
U+10330-1034F[430] Gothic ゴート文字
U+10350-1037F[431] Old Permic 古ペルム文字 *
U+10380-1039F[432] Ugaritic ウガリト文字(ウガリット文字)
U+103A0-103DF[433] Old Persian 古代ペルシャ文字
U+10400-1044F[434] Deseret デザレット文字
U+10450-1047F[435] Shavian シェイヴィアン文字
U+10480-104AF[436] Osmanya オスマニア文字
U+10500-1052F[437] Elbasan エルバサン文字 *
U+10530-1056F[438] Caucasian Albanian カフカース・アルバニア文字 *
U+10600-1077F[439] Linear A 線文字A *
U+10800-1083F[440] Cypriot Syllabary キプロス音節文字
U+10840-1085F[441] Imperial Aramaic アラム文字 *
U+10860-1087F[442] Palmyrene パルミラ文字 *
U+10880-108AF[443] Nabataean ナバテア文字 *
U+10900-1091F[444] Phoenician フェニキア文字
U+10920-1093F[445] Lydian リディア文字 *
U+10980-1099F[446] Meroitic Hieroglyphs メロエ記念碑書体 *
U+109A0-109FF[447] Meroitic Cursive メロエ草書体 *
U+10A00-10A5F[448] Kharoshthi カローシュティー文字
U+10A60-10A7F[449] Old South Arabian 南アラビア文字 *
U+10A80-10A9F[450] Old North Arabian 北アラビア文字 *
U+10AC0-10AFF[451] Manichaean マニ文字 *
U+10B00-10B3F[452] Avestan アヴェスター文字 *
U+10B40-10B5F[453] Inscriptional Parthian パルティア文字 *
U+10B60-10B7F[454] Inscriptional Pahlavi パフラヴィー文字 *
U+10B80-10BAF[455] Psalter Pahlavi 聖詠パフラヴィー文字 *
U+10C00-10C4F[456] Old Turkic 突厥文字 *
U+10E60-10E7F[457] Rumi Numeral Symbols ルーミー数字 *
U+11000-1107F[458] Brahmi ブラーフミー文字 *
U+11080-110CF[459] Kaithi カイティ文字 *
U+110D0-110FF[460] Sora Sompeng ソラ・ソンペン文字 *
U+11100-1114F[461] Chakma チャクマ文字 *
U+11150-1117F[462] Mahajani マハージャニー文字 *
U+11180-111DF[463] Sharada シャラダ文字 *
U+111E0-111FF[464] Sinhala Archaic Numbers シンハラ旧数字 *
U+11200-1124F[465] Khojki ホジャ文字 *
U+112B0-112FF[466] Khudawadi フダーワーディー文字 *
U+11300-1137F[467] Grantha グランタ文字 *
U+11480-114DF[468] Tirhuta ティルフータ文字 *
U+11580-115FF[469] Siddham 悉曇文字 *
U+11600-1165F[470] Modi モーディー文字 *
U+11680-116CF[471] Takri タクリ文字 *
U+118A0-118FF[472] Warang Citi ワラング・クシティ文字 *
U+11AC0-11AFF[473] Pau Cin Hau パウ・チン・ハウ文字 *
U+12000-123FF[474] Cuneiform 楔形文字
U+12400-1247F[475] Cuneiform Numbers and Punctuation 楔形文字の数字及び句読点
U+13000-1342F[476] Egyptian Hieroglyphs エジプト・ヒエログリフ *
U+16800-16A3F[477] Bamum Supplement バムン文字補助 *
U+16A40-16A6F[478] Mro ムロ文字 *
U+16AD0-16AFF[479] Bassa Vah バサ文字 *
U+16B00-16B8F[480] Pahawh Hmong パハウ・フモン文字 *
U+16F00-16F9F[481] Miao ポラード文字 *
U+1B000-1B0FF[482] Kana Supplement 仮名文字補助 *
U+1BC00-1BC9F[483] Duployan デュプロワイエ式速記 *
U+1BCA0-1BCAF[484] Shorthand Format Controls 速記書式制御記号 *
U+1D000-1D0FF[485] Byzantine Musical Symbols ビザンチン音楽記号
U+1D100-1D1FF[486] Musical Symbols 音楽記号
U+1D200-1D24F[487] Ancient Greek Musical Notation 古代ギリシア音符記号
U+1D300-1D35F[488] Tai Xuan Jing Symbols 太玄経記号
U+1D360-1D37F[489] Counting Rod Numerals 算木用数字
U+1D400-1D7FF[490] Mathematical Alphanumeric Symbols 数学用英数字記号
U+1E800-1E8DF[491] Mende Kikakui メンデ文字 *
U+1EE00-1EEFF[492] Arabic Mathematical Alphabetic Symbols アラビア数学用文字記号 *
U+1F000-1F02F[493] Mahjong Tiles 麻雀牌 *
U+1F030-1F09F[494] Domino Tiles ドミノ牌 *
U+1F0A0-1F0FF[495] Playing Cards トランプ *
U+1F100-1F1FF[496] Enclosed Alphanumeric Supplement 囲み英数字補助 *
U+1F200-1F2FF[497] Enclosed Ideographic Supplement 囲み表意文字補助 *
U+1F300-1F5FF[498] Miscellaneous Symbols And Pictographs その他の記号及び絵文字 *
U+1F600-1F64F[499] Emoticons 顔文字 *
U+1F650-1F67F[500] Ornamental Dingbats オーナメント *
U+1F680-1F6FF[501] Transport And Map Symbols 交通及び地図の記号 *
U+1F700-1F77F[502] Alchemical Symbols 錬金術記号 *
U+1F780-1F7FF[503] Geometric Shapes Extended 幾何学模様拡張 *
U+1F800-1F8FF[504] Supplemental Arrows-C 補助矢印C *
U+20000-2A6DF[505] CJK Unified Ideographs Extension B CJK統合漢字拡張B
U+2A700-2B73F[506] CJK Unified Ideographs Extension C CJK統合漢字拡張C *
U+2B740-2B81F[507] CJK Unified Ideographs Extension D CJK統合漢字拡張D *
U+2F800-2FA1F[508] CJK Compatibility Ideographs Supplement CJK互換漢字補助
U+E0000-E007F[509] Tags タグ
U+E0100-E01EF[510] Variation Selectors Supplement 字形選択子補助
U+F0000-FFFFF Supplementary Private Use Area-A 補助私用領域A *
U+100000-10FFFF Supplementary Private Use Area-B 補助私用領域B *

「日本語での通用名称」がJIS X 0221:2007に例示されているブロックについてはそれに準拠し、Wikipedia内の記事で用いられている名称がそれと異なる場合はその名称も併記した。*印はJIS X 0221:2007制定以降に追加されたブロック。

脚注

テンプレート:脚注ヘルプ テンプレート:Reflist

参考文献

関連項目

外部リンク

テンプレート:文字コード

  1. 相違点のいくつかはDIS 10646に由来する
  2. UTF-8はPlan 9が由来
  3. テンプレート:Cite web
  4. テンプレート:Cite web
  5. テンプレート:Cite web
  6. テンプレート:Cite web
  7. テンプレート:Cite web
  8. テンプレート:Cite web
  9. テンプレート:Cite web
  10. テンプレート:Cite web
  11. テンプレート:Cite web
  12. テンプレート:Cite web
  13. テンプレート:Cite web
  14. テンプレート:Cite web
  15. テンプレート:Cite web
  16. テンプレート:Cite web
  17. テンプレート:Cite web
  18. テンプレート:Cite web
  19. テンプレート:Cite web
  20. テンプレート:Cite web
  21. テンプレート:Cite web
  22. テンプレート:Cite web
  23. テンプレート:Cite web
  24. テンプレート:Cite web
  25. テンプレート:Cite web
  26. テンプレート:Cite web
  27. テンプレート:Cite web
  28. テンプレート:Cite web
  29. テンプレート:Cite web
  30. テンプレート:Cite web
  31. テンプレート:Cite web
  32. テンプレート:Cite web
  33. テンプレート:Cite web
  34. テンプレート:Cite web
  35. テンプレート:Cite web
  36. テンプレート:Cite web
  37. テンプレート:Cite web
  38. テンプレート:Cite web
  39. テンプレート:Cite web
  40. テンプレート:Cite web
  41. テンプレート:Cite web
  42. テンプレート:Cite web
  43. テンプレート:Cite web
  44. テンプレート:Cite web
  45. テンプレート:Cite web
  46. テンプレート:Cite web
  47. テンプレート:Cite web
  48. テンプレート:Cite web
  49. テンプレート:Cite web
  50. テンプレート:Cite web
  51. テンプレート:Cite web
  52. テンプレート:Cite web
  53. テンプレート:Cite web
  54. テンプレート:Cite web
  55. テンプレート:Cite web
  56. テンプレート:Cite web
  57. テンプレート:Cite web
  58. テンプレート:Cite web
  59. テンプレート:Cite web
  60. テンプレート:Cite web
  61. テンプレート:Cite web
  62. テンプレート:Cite web
  63. テンプレート:Cite web
  64. テンプレート:Cite web
  65. テンプレート:Cite web
  66. テンプレート:Cite web
  67. テンプレート:Cite web
  68. テンプレート:Cite web
  69. テンプレート:Cite web
  70. テンプレート:Cite web
  71. テンプレート:Cite web
  72. テンプレート:Cite web
  73. テンプレート:Cite web
  74. テンプレート:Cite web
  75. テンプレート:Cite web
  76. テンプレート:Cite web
  77. テンプレート:Cite web
  78. テンプレート:Cite web
  79. テンプレート:Cite web
  80. テンプレート:Cite web
  81. テンプレート:Cite web
  82. テンプレート:Cite web
  83. テンプレート:Cite web
  84. テンプレート:Cite web
  85. テンプレート:Cite web
  86. テンプレート:Cite web
  87. テンプレート:Cite web
  88. テンプレート:Cite web
  89. テンプレート:Cite web
  90. テンプレート:Cite web
  91. テンプレート:Cite web
  92. テンプレート:Cite web
  93. テンプレート:Cite web
  94. テンプレート:Cite web
  95. テンプレート:Cite web
  96. テンプレート:Cite web
  97. テンプレート:Cite web
  98. テンプレート:Cite web
  99. テンプレート:Cite web
  100. テンプレート:Cite web
  101. テンプレート:Cite web
  102. テンプレート:Cite web
  103. テンプレート:Cite web
  104. テンプレート:Cite web
  105. テンプレート:Cite web
  106. テンプレート:Cite web
  107. テンプレート:Cite web
  108. テンプレート:Cite web
  109. テンプレート:Cite web
  110. [[[:テンプレート:Cite web]]
  111. テンプレート:Cite web
  112. テンプレート:Cite web
  113. テンプレート:Cite web
  114. テンプレート:Cite web
  115. テンプレート:Cite web
  116. テンプレート:Cite web
  117. テンプレート:Cite web
  118. テンプレート:Cite web
  119. テンプレート:Cite web
  120. テンプレート:Cite web
  121. テンプレート:Cite web
  122. テンプレート:Cite web
  123. テンプレート:Cite web
  124. テンプレート:Cite web
  125. テンプレート:Cite web
  126. テンプレート:Cite web
  127. テンプレート:Cite web
  128. テンプレート:Cite web
  129. テンプレート:Cite web
  130. テンプレート:Cite web
  131. テンプレート:Cite web
  132. テンプレート:Cite web
  133. テンプレート:Cite web
  134. テンプレート:Cite web
  135. テンプレート:Cite web
  136. テンプレート:Cite web
  137. テンプレート:Cite web
  138. テンプレート:Cite web
  139. テンプレート:Cite web
  140. テンプレート:Cite web
  141. テンプレート:Cite web
  142. テンプレート:Cite web
  143. テンプレート:Cite web
  144. テンプレート:Cite web
  145. テンプレート:Cite web
  146. テンプレート:Cite web
  147. テンプレート:Cite web
  148. テンプレート:Cite web
  149. テンプレート:Cite web
  150. テンプレート:Cite web
  151. テンプレート:Cite web
  152. テンプレート:Cite web
  153. テンプレート:Cite web
  154. テンプレート:Cite web
  155. テンプレート:Cite web
  156. テンプレート:Cite web
  157. テンプレート:Cite web
  158. テンプレート:Cite web
  159. テンプレート:Cite web
  160. テンプレート:Cite web
  161. テンプレート:Cite web
  162. テンプレート:Cite web
  163. テンプレート:Cite web
  164. テンプレート:Cite web
  165. テンプレート:Cite web
  166. テンプレート:Cite web
  167. テンプレート:Cite web
  168. テンプレート:Cite web
  169. テンプレート:Cite web
  170. テンプレート:Cite web
  171. テンプレート:Cite web
  172. テンプレート:Cite web
  173. テンプレート:Cite web
  174. テンプレート:Cite web
  175. テンプレート:Cite web
  176. テンプレート:Cite web
  177. テンプレート:Cite web
  178. テンプレート:Cite web
  179. テンプレート:Cite web
  180. テンプレート:Cite web
  181. テンプレート:Cite web
  182. テンプレート:Cite web
  183. テンプレート:Cite web
  184. テンプレート:Cite web
  185. テンプレート:Cite web
  186. テンプレート:Cite web
  187. テンプレート:Cite web
  188. テンプレート:Cite web
  189. テンプレート:Cite web
  190. テンプレート:Cite web
  191. テンプレート:Cite web
  192. テンプレート:Cite web
  193. テンプレート:Cite web
  194. テンプレート:Cite web
  195. テンプレート:Cite web
  196. テンプレート:Cite web
  197. テンプレート:Cite web
  198. テンプレート:Cite web
  199. テンプレート:Cite web
  200. テンプレート:Cite web
  201. テンプレート:Cite web
  202. テンプレート:Cite web
  203. テンプレート:Cite web
  204. テンプレート:Cite web
  205. テンプレート:Cite web
  206. テンプレート:Cite web
  207. テンプレート:Cite web
  208. テンプレート:Cite web
  209. テンプレート:Cite web
  210. テンプレート:Cite web
  211. テンプレート:Cite web
  212. テンプレート:Cite web
  213. テンプレート:Cite web
  214. テンプレート:Cite web
  215. テンプレート:Cite web
  216. テンプレート:Cite web
  217. テンプレート:Cite web
  218. テンプレート:Cite web
  219. テンプレート:Cite web
  220. テンプレート:Cite web
  221. テンプレート:Cite web
  222. テンプレート:Cite web
  223. テンプレート:Cite web
  224. テンプレート:Cite web
  225. テンプレート:Cite web
  226. テンプレート:Cite web
  227. テンプレート:Cite web
  228. テンプレート:Cite web
  229. テンプレート:Cite web
  230. テンプレート:Cite web
  231. テンプレート:Cite web
  232. テンプレート:Cite web
  233. テンプレート:Cite web
  234. テンプレート:Cite web
  235. テンプレート:Cite web
  236. テンプレート:Cite web
  237. テンプレート:Cite web
  238. テンプレート:Cite web
  239. テンプレート:Cite web
  240. テンプレート:Cite web
  241. テンプレート:Cite web
  242. テンプレート:Cite web
  243. テンプレート:Cite web
  244. テンプレート:Cite web
  245. テンプレート:Cite web
  246. テンプレート:Cite web
  247. テンプレート:Cite web
  248. テンプレート:Cite web
  249. テンプレート:Cite web
  250. テンプレート:Cite web
  251. テンプレート:Cite web
  252. テンプレート:Cite web
  253. テンプレート:Cite web
  254. テンプレート:Cite web
  255. テンプレート:Cite web
  256. テンプレート:Cite web
  257. テンプレート:Cite web
  258. テンプレート:Cite web
  259. テンプレート:Cite web
  260. テンプレート:Cite web
  261. テンプレート:Cite web
  262. RFC 3629の5. Versions of the standardsでKorean mess(ハングル大移動)について、8. MIME registrationでUTF-8にバージョン指定がない理由についての言及がある。
  263. テンプレート:Cite web
  264. テンプレート:Cite web
  265. テンプレート:Cite web
  266. テンプレート:Cite web
  267. テンプレート:Cite web
  268. テンプレート:Cite web
  269. テンプレート:Cite web
  270. テンプレート:Cite web
  271. テンプレート:Cite web
  272. テンプレート:Cite web
  273. テンプレート:Cite web
  274. テンプレート:Cite web
  275. テンプレート:Cite web
  276. テンプレート:Cite web
  277. テンプレート:Cite web
  278. テンプレート:Cite web
  279. テンプレート:Cite web
  280. テンプレート:Cite web
  281. テンプレート:Cite web
  282. テンプレート:Cite web
  283. テンプレート:Cite web
  284. テンプレート:Cite web
  285. テンプレート:Cite web
  286. テンプレート:Cite web
  287. テンプレート:Cite web
  288. テンプレート:Cite web
  289. テンプレート:Cite web
  290. テンプレート:Cite web
  291. テンプレート:Cite web
  292. テンプレート:Cite web
  293. テンプレート:Cite web
  294. テンプレート:Cite web
  295. テンプレート:Cite web
  296. テンプレート:Cite web
  297. テンプレート:Cite web
  298. テンプレート:Cite web
  299. テンプレート:Cite web
  300. テンプレート:Cite web
  301. テンプレート:Cite web
  302. テンプレート:Cite web
  303. テンプレート:Cite web
  304. テンプレート:Cite web
  305. テンプレート:Cite web
  306. テンプレート:Cite web
  307. テンプレート:Cite web
  308. テンプレート:Cite web
  309. テンプレート:Cite web
  310. テンプレート:Cite web
  311. テンプレート:Cite web
  312. テンプレート:Cite web
  313. テンプレート:Cite web
  314. テンプレート:Cite web
  315. テンプレート:Cite web
  316. テンプレート:Cite web
  317. テンプレート:Cite web
  318. テンプレート:Cite web
  319. テンプレート:Cite web
  320. テンプレート:Cite web
  321. テンプレート:Cite web
  322. テンプレート:Cite web
  323. テンプレート:Cite web
  324. テンプレート:Cite web
  325. テンプレート:Cite web
  326. テンプレート:Cite web
  327. テンプレート:Cite web
  328. テンプレート:Cite web
  329. テンプレート:Cite web
  330. テンプレート:Cite web
  331. テンプレート:Cite web
  332. テンプレート:Cite web
  333. テンプレート:Cite web
  334. テンプレート:Cite web
  335. テンプレート:Cite web
  336. テンプレート:Cite web
  337. テンプレート:Cite web
  338. テンプレート:Cite web
  339. テンプレート:Cite web
  340. テンプレート:Cite web
  341. テンプレート:Cite web
  342. テンプレート:Cite web
  343. テンプレート:Cite web
  344. テンプレート:Cite web
  345. テンプレート:Cite web
  346. テンプレート:Cite web
  347. テンプレート:Cite web
  348. テンプレート:Cite web
  349. テンプレート:Cite web
  350. テンプレート:Cite web
  351. テンプレート:Cite web
  352. テンプレート:Cite web
  353. テンプレート:Cite web
  354. テンプレート:Cite web
  355. テンプレート:Cite web
  356. テンプレート:Cite web
  357. テンプレート:Cite web
  358. テンプレート:Cite web
  359. テンプレート:Cite web
  360. テンプレート:Cite web
  361. テンプレート:Cite web
  362. テンプレート:Cite web
  363. テンプレート:Cite web
  364. テンプレート:Cite web
  365. テンプレート:Cite web
  366. テンプレート:Cite web
  367. テンプレート:Cite web
  368. テンプレート:Cite web
  369. テンプレート:Cite web
  370. テンプレート:Cite web
  371. テンプレート:Cite web
  372. テンプレート:Cite web
  373. テンプレート:Cite web
  374. テンプレート:Cite web
  375. テンプレート:Cite web
  376. テンプレート:Cite web
  377. テンプレート:Cite web
  378. テンプレート:Cite web
  379. テンプレート:Cite web
  380. テンプレート:Cite web
  381. テンプレート:Cite web
  382. テンプレート:Cite web
  383. テンプレート:Cite web
  384. テンプレート:Cite web
  385. テンプレート:Cite web
  386. テンプレート:Cite web
  387. テンプレート:Cite web
  388. テンプレート:Cite web
  389. テンプレート:Cite web
  390. テンプレート:Cite web
  391. テンプレート:Cite web
  392. テンプレート:Cite web
  393. テンプレート:Cite web
  394. テンプレート:Cite web
  395. テンプレート:Cite web
  396. テンプレート:Cite web
  397. テンプレート:Cite web
  398. テンプレート:Cite web
  399. テンプレート:Cite web
  400. テンプレート:Cite web
  401. テンプレート:Cite web
  402. テンプレート:Cite web
  403. テンプレート:Cite web
  404. テンプレート:Cite web
  405. テンプレート:Cite web
  406. テンプレート:Cite web
  407. テンプレート:Cite web
  408. テンプレート:Cite web
  409. テンプレート:Cite web
  410. テンプレート:Cite web
  411. テンプレート:Cite web
  412. テンプレート:Cite web
  413. テンプレート:Cite web
  414. テンプレート:Cite web
  415. テンプレート:Cite web
  416. テンプレート:Cite web
  417. テンプレート:Cite web
  418. テンプレート:Cite web
  419. テンプレート:Cite web
  420. テンプレート:Cite web
  421. テンプレート:Cite web
  422. テンプレート:Cite web
  423. テンプレート:Cite web
  424. テンプレート:Cite web
  425. テンプレート:Cite web
  426. テンプレート:Cite web
  427. テンプレート:Cite web
  428. テンプレート:Cite web
  429. テンプレート:Cite web
  430. テンプレート:Cite web
  431. テンプレート:Cite web
  432. テンプレート:Cite web
  433. テンプレート:Cite web
  434. テンプレート:Cite web
  435. テンプレート:Cite web
  436. テンプレート:Cite web
  437. テンプレート:Cite web
  438. テンプレート:Cite web
  439. テンプレート:Cite web
  440. テンプレート:Cite web
  441. テンプレート:Cite web
  442. テンプレート:Cite web
  443. テンプレート:Cite web
  444. テンプレート:Cite web
  445. テンプレート:Cite web
  446. テンプレート:Cite web
  447. テンプレート:Cite web
  448. テンプレート:Cite web
  449. テンプレート:Cite web
  450. テンプレート:Cite web
  451. テンプレート:Cite web
  452. テンプレート:Cite web
  453. テンプレート:Cite web
  454. テンプレート:Cite web
  455. テンプレート:Cite web
  456. テンプレート:Cite web
  457. テンプレート:Cite web
  458. テンプレート:Cite web
  459. テンプレート:Cite web
  460. テンプレート:Cite web
  461. テンプレート:Cite web
  462. テンプレート:Cite web
  463. テンプレート:Cite web
  464. テンプレート:Cite web
  465. テンプレート:Cite web
  466. テンプレート:Cite web
  467. テンプレート:Cite web
  468. テンプレート:Cite web
  469. テンプレート:Cite web
  470. テンプレート:Cite web
  471. テンプレート:Cite web
  472. テンプレート:Cite web
  473. テンプレート:Cite web
  474. テンプレート:Cite web
  475. テンプレート:Cite web
  476. テンプレート:Cite web
  477. テンプレート:Cite web
  478. テンプレート:Cite web
  479. テンプレート:Cite web
  480. テンプレート:Cite web
  481. テンプレート:Cite web
  482. テンプレート:Cite web
  483. テンプレート:Cite web
  484. テンプレート:Cite web
  485. テンプレート:Cite web
  486. テンプレート:Cite web
  487. テンプレート:Cite web
  488. テンプレート:Cite web
  489. テンプレート:Cite web
  490. テンプレート:Cite web
  491. テンプレート:Cite web
  492. テンプレート:Cite web
  493. テンプレート:Cite web
  494. テンプレート:Cite web
  495. テンプレート:Cite web
  496. テンプレート:Cite web
  497. テンプレート:Cite web
  498. テンプレート:Cite web
  499. テンプレート:Cite web
  500. テンプレート:Cite web
  501. テンプレート:Cite web
  502. テンプレート:Cite web
  503. テンプレート:Cite web
  504. テンプレート:Cite web
  505. テンプレート:Cite web
  506. テンプレート:Cite web
  507. テンプレート:Cite web
  508. テンプレート:Cite web
  509. テンプレート:Cite web
  510. テンプレート:Cite web