言語資源

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

言語資源(げんごしげん)とは、自然言語を研究するさいに用いられる資源のこと。 辞書コーパスシソーラスインフォーマントなどがこれにあたる。 電子化された言語資源は自然言語処理技術の研究に不可欠であるが、作成に非常に手間がかかるため、いまだにその数は少なく、一般にとても高価である。

近年WWWが普及したこともあり、これらの資源をインターネット上から自動的に獲得しようとする試みも数多くなされてはいるが、一般的なネットワーク上の文章にはノイズが多すぎて価値ある情報を収集するのは難しいとされる。

また、言語資源には著作権の問題が重くのしかかっている。それはたとえ資源を作っていても、それを公開するのは権利上の許可を得なければならないからである。 ウィキペディアはこの問題に対する解決策の一つとなるべく運営されている。

言語資源に関するサイト