音声ファイルフォーマット
音声ファイルフォーマット(おんせいファイルフォーマット、テンプレート:Lang-en-short)は、音データをコンピュータシステム上で格納する際のコンテナフォーマットである。
目次
概要
音声をデジタルデータとして格納するには、一般に音声の波形を電圧で表したものを個々のチャンネル毎に特定の量子化ビット数(ビット深度)と一定の間隔(サンプリング周波数)で標本化する。このデータは圧縮されずに格納されるか、ファイルサイズを削減するために圧縮して格納される。
ファイルフォーマットとコーデックを区別することは重要である。コーデックは生の音声データを符号化/復号するものであり、ファイルフォーマットは音声をファイルに格納する際の特定の形式を指す。ただし、多くの音声ファイルフォーマットには1つのコーデックが対応することが多く、複数のコーデックが対応する音声ファイルフォーマットとしては、Matroska Audio などがある。
種類
音声ファイルフォーマットは、非圧縮音声、可逆・非可逆それぞれの音声圧縮、と大きく3つに分類される。
非圧縮音声フォーマット
圧縮しない音声フォーマットはPCMそのものであり、Windowsでは .wavとして、Mac OS では .aiffとして格納される。WAVは柔軟なファイルフォーマットであり、任意のサンプリング周波数とビットレートのデータを格納できる。このため、最初に録音する際のファイル形式として最適である。
- WAV - 主にMicrosoft Windowsで使われている標準音声ファイルフォーマット。基本的にリニアPCMが格納される。ただし他コーデックも格納することも可能。ファイル内の構造は RIFFを踏襲している。これはIFFフォーマットに似ている。
- AIFF - アップルの標準音声ファイルフォーマット。言うなればMacintoshにとってのWAVである。
- BWF (Broadcast Wave Format) - 欧州放送連合がWAVの後継として策定した標準音声フォーマットである。BWFではファイルにメタデータを含めることができる。詳しくは、European Broadcasting Union: Specification of the Broadcast Wave Format - A format for audio data files in broadcasting. EBU Technical document 3285, July 1997 を参照。このフォーマットは録音時のフォーマットとして、テレビや映画業界で使われる多くのオーディオワークステーションで採用されている。SMPTEタイムコードをファイルに含めることができるため、別に録画された画像と同期をとるのが容易である。
可逆圧縮を伴うフォーマットでは、録音時に余分な処理が必要となるが、大量の録音をする場合にはストレージ容量の節約という点で効率的と言える。WAVなどの非圧縮フォーマットは、録音対象が複雑な音楽でも全くの静寂であっても、単位時間当たりに同じ量のビットを記録する。
例えば、オーケストラの演奏のような複数の音が混じる場合でも、全く音がしない状況でも、WAVで格納すれば単位時間当たりのファイルサイズは同じである。同じものをTTAで符号化した場合、前者のファイルはある程度小さくなり、後者のファイルはほとんどゼロに近いサイズになるだろう。しかし、ファイル形式をTTAとして符号化するには、WAV形式で符号化するよりも多大な時間がかかる。
非可逆圧縮音声フォーマット
非可逆圧縮の為、元データと同一に戻す事ができない。音響心理学等様々な技法を使用し可聴域にない音を省いて圧縮するため、同じ音源のPCMファイルのおよそ10分の1のサイズになるが、音質はそれなりに保たれる。フォーマットそれぞれの工夫により圧縮率、再生時の音質・特性の差違がみられる。
- mp3 - 音楽ダウンロードで最も一般的なフォーマット。MP3 は音楽には適しているが、話し声には適していないとされている。オープンなフォーマットと誤解されることが多い。
- Vorbis - Oggフォーマット、その中でも最も一般に使われるコーデック。MP3 よりも圧縮効率がよい。
- AAC - Advanced Audio Coding フォーマット。MPEG-2 と MPEG-4 に基づいている。AAC ファイルにはコンテナ形式として ADTS と ADIF がある。
- Windows Media Audio(WMA) - マイクロソフトが権利を保有するフォーマット。デジタル著作権管理機能が含まれている。
- ATRAC - ソニーが開発したフォーマット。SonicStage、x-アプリ等に使われている
- mp4/m4a - MPEG-4 音声フォーマット。中身としては AAC が多いが、MP2/MP3 も使われることがある。
可逆圧縮音声フォーマット
可逆圧縮の為、元データと同一のデータを保持したままおよそ50%のサイズにする事ができる。全てのフォーマットの音質は同一の為、圧縮率、エンコード・デコード速度、付加機能、再生環境等を比較する事により有用性を判断することができる。[1]
- TAK - 圧縮率、エンコード・デコード速度、機能面共にバランスの取れた総合的に高い性能を誇る。フリーだがオープンソースではない。
- FLAC - エンコード・デコード速度、機能面に高い性能を誇る。圧縮率は低い。
- Monkey's Audio(ape) - 圧縮率、エンコード速度に高い性能を誇る。デコード速度は遅い。
- TTA - 平均的にバランスの取れた性能。
- WavPack - 平均的にバランスの取れた性能。非可逆ファイルと差分ファイルで可逆ファイルとして扱うことのできる、ハイブリッドモードがある。
- LA - 圧縮率に高い性能を誇る。エンコード・デコード速度、機能面共に低い性能。
- mp3HD - MP3 可逆フォーマット、mp3 再生機でも再生可能(但し mp3 音質)
- MPEG-4 ALS - MPEG-4 可逆フォーマット、圧縮率、エンコード速度に高い性能を誇り、柔軟性が高い。
- MPEG-4 SLS - MPEG-4 可逆フォーマット、AAC 再生機でも再生可能(但し AAC 音質)
- Apple Lossless(ALAC) - アップル純正可逆フォーマット。後にオープンソース化
- ATRAC Advanced Lossless(AAL) - ソニー純正可逆フォーマット
- WMA Lossless - マイクロソフト純正可逆フォーマット
パテント別分類
フリーかつオープンなフォーマット
- WAV、FLAC、AIFF、ALAC
- Matroska Audio - フリーでオープンソースな汎用コンテナフォーマットであり、各種コーデックをサポートしている。
- Ogg - フリーでオープンソースな汎用コンテナフォーマットであり、各種コーデックをサポートしている。最も一般に使われるコーデックは Vorbis である。
- AU - サン・マイクロシステムズの標準音声ファイルフォーマット。Javaでも使われている。PCM そのまま以外に、μ-law、A-law、G.729 といった可逆・非可逆コーデックを格納できる。
オープンなフォーマット
- AAC、mp4/m4a
- GSM - 欧州で電話での利用目的で設計された。従って、電話レベルの音質に最適である。ファイルサイズと音質の兼ね合いが良い。WAV ファイルは GSM コーデックで圧縮可能である。
- dct - 各種コーデックが使えるフォーマットであり、口述筆記向けである。
- vox - Dialogic ADPCM コーデックを使うことが多い。他の ADPCM フォーマットと同様、サンプル当たり4ビットに圧縮する。vox フォーマットのファイルは WAV ファイルとよく似ているが、メタデータ的なものが全くないため、再生時にはサンプリング周波数やチャンネル数といった情報を外から与える必要がある。
オープンでないフォーマット
- MP3、WMA、ATRAC、TAK
- RealAudio - インターネットにおけるストリーミング向けに設計されたフォーマット。再生に必要な全情報がファイルに格納されている。
- Digital Speech Standard- オリンパスが権利を有する。古い形式でありコーデックの性能も良くない。
- msv - ソニーのメモリースティックで使われる独自の音声ファイルフォーマット。
- dvf - ソニーのICレコーダーで使われる独自の音声ファイルフォーマット。
- m4p - アップルがiTunesで使うために独自に拡張したデジタル著作権管理付きのMP4(AAC)フォーマット。