コーパス

この項目では、自然言語の文章を構造化し大規模に集積したものについて説明しています。自然言語の文章を構造化し大規模に集積したもののその他の用法については「コーパス (曖昧さ回避)」をご覧ください。

テンプレート:Sidebar with heading backgrounds コーパス（corpus）とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報（品詞、統語構造など）が付与される。コンピュータ利用が進み、電子化データとなった。

概要

「身体」を意味するラテン語corpusに由来する。複数形はcorpora（コーポラ）。英語式複数形としたcorpusesの使用も散見される。

大規模なコーパスの作成には相当の費用と時間がかかる。使用する文章に関わる著作権などの法的問題が発生するためである。データ作成の手間はあるが、コンピュータ利用によりそれ以前に比べかなりの労力軽減と多様な構造化が実現した。日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。

構造化した言語データを一般利用するという観点からは、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として期間限定で無料公開している。

日本でコーパスを一般に広く知らしめたのは英語学者の投野由紀夫である。2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を展開し、それまで専門家しか知らなかったコーパスを一般的な存在へ変えた。2009年には新シリーズとしてずばりコーパスをタイトルに入れた『コーパス100!で英会話』が放送されている。

外部リンク

テンプレート:Asbox テンプレート:Language-stub

コーパス

概要

関連項目

外部リンク

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ヘルプ

ツール