言語資源
出典: フリー百科事典『ウィキペディア(Wikipedia)』
言語資源(げんごしげん)とは、自然言語を研究するさいに用いられる資源のこと。 辞書やコーパス、シソーラス、インフォーマントなどがこれにあたる。 電子化された言語資源は自然言語処理技術の研究に不可欠であるが、作成に非常に手間がかかるため、いまだにその数は少なく、一般にとても高価である。
近年WWWが普及したこともあり、これらの資源をインターネット上から自動的に獲得しようとする試みも数多くなされてはいるが、一般的なネットワーク上の文章にはノイズが多すぎて価値ある情報を収集するのは難しいとされる。
また、言語資源には著作権の問題が重くのしかかっている。それはたとえ資源を作っていても、それを公開するのは権利上の許可を得なければならないからである。 ウィキペディアはこの問題に対する解決策の一つとなるべく運営されている。
言語資源に関するサイト
- 松本研究室 - 自然言語データに関する情報(日本語の言語資源一覧)
- 言語イニシアティブ調査