UTF-8

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

テンプレート:複数の問題 テンプレート:Table Unicode UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位の文字符号化形式及び文字符号化スキーム

正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]

2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。

データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向がある。Linuxのように、OSの標準文字エンコードとして使用される例も増えている。

当初は、ベル研究所においてPlan 9で用いるエンコードとして、ロブ・パイクによる設計指針のもと、ケン・トンプソンによって考案された[2][3]

エンコード体系

ASCII文字と互換性を持たせるために、ASCIIと同じ部分は1バイト、その他の部分を2-6バイトで符号化する。4バイトのシーケンスでは21bit (0x1FFFFF) まで表現することができるが、Unicodeの範囲外となる17面以降を表すもの(U+10FFFFより大きなもの)は受け付けない。また5-6バイトの表現は、ISO/IEC 10646による定義[4]IETFによるかつての定義[5]で、Unicodeの範囲外を符号化するためにのみ使用するが、Unicodeによる定義[6]とIETFによる最新の定義[7]では、5-6バイトの表現は不正なシーケンスである。

ビットパターンは以下のようになっている。

Unicode ビット列 バイト列 有効ビット バイト数
U+0000 … U+007F 0xxxxxxx 00-7F テンプレート:07 bit 1
(min) U+0000 0000000 00
(max) U+007F 1111111 7F
U+0080 … U+07FF 110yyyyx 10xxxxxx C2-DF 80-BF 11 bit 2
(min) U+0080 00010 000000 C2 80
(max) U+07FF 11111 111111 DF BF
U+0800 … U+FFFF 1110yyyy 10yxxxxx 10xxxxxx E0-EF 80-BF 80-BF 16 bit 3
(min) U+0800 0000 100000 000000 E0 A0 80
(max) U+FFFF 1111 111111 111111 EF BF BF
U+10000 … U+1FFFFF 11110yyy 10yyxxxx 10xxxxxx 10xxxxxx F0-F7 80-BF 80-BF 80-BF 21 bit 4
(min) U+10000 000 010000 000000 000000 F0 90 80 80
(max) U+1FFFFF 111 111111 111111 111111 F7 BF BF BF
U+200000 … U+3FFFFFF 111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx F8-FB 80-BF 80-BF 80-BF 80-BF 26 bit 5
(min) U+200000 00 001000 000000 000000 000000 F8 88 80 80 80
(max) U+3FFFFFF 11 111111 111111 111111 111111 FB BF BF BF BF
U+4000000 … U+7FFFFFFF 1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx FC-FD 80-BF 80-BF 80-BF 80-BF 80-BF 31 bit 6
(min) U+4000000 0 000100 000000 000000 000000 000000 FC 84 80 80 80 80
(max) U+7FFFFFFF 1 111111 111111 111111 111111 111111 FD BF BF BF BF BF

Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する。最短のバイト数で符号化するため、yの部分には最低1回は1が出現する。符号化されたバイト列は、バイト順に関わらず左から順に出力する。これにより4バイトで21bit、6バイトで31bitまで表現することができる。

1バイト目の先頭の連続するビット "1"(その後にビット "0" が1つ付く)の個数で、その文字のバイト数が判るようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が重ならないので、文字境界を確実に判定できる。すなわち、任意のバイトの先頭ビットが "0" なら1バイト文字、"10" なら2バイト以上の文字の2番目以降のバイト、"110" なら2バイト文字の先頭バイト、"1110" なら3バイト文字の先頭バイト、"11110" なら4バイト文字の先頭バイトであると判定できる。

7バイト以上の文字は規定されないため、0xFE、0xFFは使用されない。このため、バイト順マーク (BOM) に0xFEと0xFFを使用するUTF-16やUTF-32が、UTF-8と混同されることはない。

特徴

メリット

  • バイトストリーム中の任意の位置から、その文字、前の文字、あるいは次の文字の先頭バイトを容易に判定することができる。
  • 文字列の検索を単なるバイト列の検索として行っても、文字境界と異なる個所でマッチしてしまうことがない。たとえばShift_JISで「¥」(0x5C) を検索すると「表」(0x95 0x5C) の2バイト目にマッチしたり、EUC-JPで「海」(0xB3 0xA4) を検索すると「ここ」(0xA4 0xB3 0xA4 0xB3) にマッチしたりするのと同様のことが起きない。このため、マルチバイト文字を意識せず、ISO 8859-1などの8bit文字向けに作られた膨大なプログラム資産を、比較的少ない修正で再利用できる。
    • ただし、他のUnicodeの符号化と同様に、単にバイト列の比較では文字列が同一か判断できない場合がある。詳細は、Unicodeの等価性及び正規化を参照のこと。
  • UTF-16UTF-32と異なり、バイト単位の入出力を行うため、バイト順の影響がない。
  • 31bitまで表現できるため、サロゲートペアを使用する必要がない。
  • ASCII文字が主体の文書であれば、ほとんどデータサイズを増やさずにUnicodeのメリットを享受できる。UTF-16やUTF-32では、データサイズはほぼ2倍、4倍となる。
  • 複数のUTF-8文字列を、単なる符号なし8ビット整数の配列とみなして辞書順ソートした結果は、Unicodeの符号位置の辞書順のソート結果(すなわちUTF-32に変換した後にソートした結果)と等しくなる。これに対して、サロゲートペアを含むUTF-16文字列を符号なし16ビット整数の配列とみなしてソートした結果は、Unicodeの符号位置の辞書順のソート結果と異なりうる。

デメリット

  • UTF-8による符号化では、漢字仮名などの表現に3バイトを要する。このように、東アジアの従来文字コードではマルチバイト符号を用いて1文字2バイトで表現されていたデータが、1.5倍かそれ以上のサイズとなる。同様に、ISO/IEC 8859-1では1バイトで表現できた非ASCIIのラテン文字(ウムラウト付きの文字など)も2バイトとなるし、その他のISO/IEC 8859シリーズに属する文字符号ではデータ量がさらに増大しうる。
    • なお、1バイトが9ビットである処理系では、この問題をあまり発生させずに符号化できるはずである。このアイディアに基づいたジョークRFCがRFC 4042 “UTF-9” として2005年エイプリルフール4月1日)に公開された。
  • 文字数とデータサイズが比例しないため、文字数を調べるには先頭から全データを読み取る必要がある。ただし、Unicodeでは一部の文字を合成によって表現することもできるから(例:「ぱ」は、U+3071のほかにもU+306F U+309Aでも表現できる)、Unicodeを採用する場合、文字列の文字数をその文字列のバイト数から計算できないことは、UTF-8に限ったことではない。
  • 最短ではない符号やサロゲートペアなど、UTF-8の規格外だがチェックを行わないプログラムでは一見正常に扱われるバイト列が存在する。これらのバイト列を入力として受け入れてしまうと、プログラムが予期しない範囲のデータを生成するため、セキュリティ上の脅威となりうる[8]

サロゲートペアの扱い

UTF-16ではサロゲートペアで表されるような、基本多言語面外の符号位置をUTF-8で表す時は、変換元がUTF-16でサロゲートペアの時には U+D800 ~ U+DBFF, U+DC00 ~ U+DFFF を表すUTF-8にそのまま変換したりはせず、U+10000 ~ U+10FFFF の符号位置にデコードしてから変換する。そのままUTF-8で符号化したような列は不正なUTF-8とされる。

サロゲートペアのままUTF-8と同等の符号化を行う符号化は、CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit) として別途定義されている。実用に供されている例としては、Oracle Databaseのバージョン8以前において、UTF-8として3オクテットまでのオクテット列しか扱えなかったために定義されたものである。本来のUTF-8における4オクテット列の代わりに、サロゲート符号位置を表す3オクテット列のペア(上位が ED A0 80 ~ ED AF BF、下位が ED B0 80 ~ ED BF BF)で表現される(現在のOracle Databaseでも、CESU-8を「UTF8」として、「普通のUTF-8」を「AL32UTF8」として扱っているため注意を要する)。

また、Javaの一部の内部実装で用いられているModified UTF-8も、サロゲートペアをそのまま残す仕様となっている。ただし、NULL文字をC0 80とエンコードする(これもUTF-8規格外)点で、CESU-8とも異なる実装となっている。

セキュリティ

UTF-8のエンコード体系には冗長性があり、同じ文字を符号化するのに複数の表現が考えられる(例: スラッシュ記号である「/」を 0x2F という1バイトで表現するのではなく、0xC0 0xAF という2バイトもしくはそれより大きなバイト数で表現する)。かつてはそのような表現も許容されていたが、ディレクトリトラバーサルなどの対策として行われる文字列検査を冗長な表現によりすり抜ける手法が知られるようになったため、現在の仕様では最も短いバイト数による表現以外は不正なUTF-8シーケンスとみなさなければならない[9]

ISO/IEC 10646の定義が5バイト以上の表現を許容していることにより、正しくない実装を行ったバグのあるシステムにおいてエンコード時にバッファオーバーフローが発生する可能性も指摘されている。

文字種

B Unicode スクリプト JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213
1 U+0000 - U+007F ASCII Roman(円記号オーバーライン以外) - - -
2 U+0080 - U+07FF ラテンダイアクリティカルギリシャ
キリールアルメニアヘブライアラビア
シリアターナ
円記号 非漢字の一部 非漢字の一部 非漢字の一部
3 U+0800 - U+FFFF インド系諸文字句読点学術記号
絵文字東アジアの諸文字、全角半角形
オーバーライン、Kana 残りの全て 残りの全て 大半
4 U+10000 - U+1FFFFF 古代文字、3に含まれない漢字 - - - 第3・第4水準漢字の一部

バイト順マークの使用について

UTF-8で符号されたテキストデータはエンディアンに関わらず同じ内容になるので、バイト順マーク (BOM) は必要ない。しかし、テキストデータがUTF-8で符号化されていることの標識として、データの先頭にEF BB BF(16進。UCSでのバイト順マークU+FEFFのUTF-8での表現)を付加することが許される。一部のテキスト処理アプリケーション(エディタなど)がこのような動作をする(TeraPadEmEditorエディタのように付加するかどうかを選択できるものもある)。

なお、日本の特殊事情として、このシーケンスがある方をUTF-8、ない方を特にUTF-8Nと呼ぶこともある[10]が、このような呼び分けは日本以外ではほとんど知られておらず、また公的規格などによる裏付けもない[11]

このシーケンスを通常の文字と認識するプログラムでは、先頭に余分なデータがあるとみなされて問題となることがある。例えば、Unix系OSにおける実行可能スクリプトは、ファイル先頭が「#!」から始まるとき、それに続く文字列をインタプリタのコマンドとして認識するが、多くのシステムでは、このシーケンスが存在するとこの機能が働かず実行できない。

逆にこのシーケンスがないとUTF-8と認識できないプログラムも存在する。とくにASCII部以外の文字が少ない場合に誤認することが多い(たとえば、Microsoft Excelでは、CSVファイルを開くとき、このシーケンスが付加されていないUTF-8の場合は正常に読み込むことができない[12]Microsoft Windowsに付属するメモ帳ワードパッドも同様。)。

プロトコルが常にUTF-8である事を強制しているものである場合はこのシーケンスを禁止するべきで、この場合ファイル先頭にこのシーケンスが現れると “ZERO WIDTH NO-BREAK SPACE” と見なされる。逆にプロトコルがそれを保証しない場合このシーケンスは禁止されずファイル先頭のそれはバイト順マークと見なされる[13]

Unicode正規化との関係

テンプレート:Anchor 一般に、Unicodeにもとづくテキストデータの表現は、正規化を行わなければ一意にならない。UTF-8自体は正規化の有無に関わらずデータを符号化できる。そこで、NFCNFD、あるいはそれと類似の形式で正規化されたデータを要求するプロトコルやアプリケーションもある。

たとえば、Mac OS Xで使用されるHFS+ファイルシステムでは、ファイル名をNFDに正規化されたUTF-8で扱う。実際には、これはNFDを改変したものである。以前のMac OS用エンコーディングとの互換性を保つために、正規化から除外される文字がある[14]。この改変されたNFDで正規化されるUTF-8を、Mac OS Xに付属するiconvなどでは「UTF-8-MAC」として、EmacsではUTF-8-HFSとして扱うことができる。

Mac OS Xのシステムコールでは、ファイルにアクセスする際、通常のUTF-8で指定しても内部で前述の正規化が行われるため、ユーザーやプログラマはこれを意識する必要はない。しかし、ファイルの一覧などを取得した場合、取得されるファイル名は正規化されたものとなる。このファイル名をそのまま他のUTF-8を使用する(しかし、NFDによる分解を前提としていない)システムにコピーすると、そのシステムの一般的な方法ではアクセスできないファイルが作成されてしまうおそれがある。

脚注

  1. RFC 3629 UTF-8, a transformation format of ISO 10646
  2. RFC 3629 Page-3
  3. Rob Pike's UTF-8 history
  4. ISO/IEC 10646:2003 Information technology -- Universal Multiple-Octet Coded Character Set (UCS)
  5. RFC 2279 UTF-8, a transformation format of ISO 10646
  6. The Unicode Standard, Version 5.2
  7. RFC 3629 UTF-8, a transformation format of ISO 10646
  8. RFC 3629, pp.9f.
  9. Windowsにおける有名なワームであるNimdaウイルスは、IISにおけるUTF-8の脆弱性をもちいたものである。本当は怖い文字コードの話 第4回 UTF-8の冗長なエンコード
  10. テンプレート:Cite web
  11. このため、UTF-8という呼び名を使っていれば情報交換の相手が文書先頭にこのシーケンスがあると見なすと期待すべきではないし、また、UTF-8Nという呼び名は情報交換の際に用いるべきではない。
  12. ExcelでUTF-8の csvデータを表示するにはUTF-8で文字化け回避してCSV出力する方法を参照
  13. RFC 3629 6. Byte order mark (BOM)
  14. テンプレート:Cite web

参考資料

用語の日本語表記は原則として次にならった。テンプレート:Cite web

関連項目

テンプレート:文字コードfi:Unicode#UTF-8