計算言語学

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

テンプレート:出典の明記 テンプレート:Sidebar with heading backgrounds 計算言語学(けいさんげんごがく、英語:computational linguistics)とは、言語学の一分野である。計算機科学における自然言語処理との類似点もみられるが、計算言語学という言い方をした場合、言語学にルーツを持ちながらもコンピュータの観点からの自然言語論理モデリングを中心とした研究分野を指すことが多い。このモデリング自体は言語学に限定されているわけではなく、他にもコンピュータ科学人工知能認知心理学などが研究に参加している。

自然言語処理

テンプレート:Main 実際の言語データ(コーパス)から計算によって言語の特徴を取り出し、言語の分析を行う。

タグ付きコーパス

コーパスに情報を付加することでより複雑で正確な分析を行う。

例:

#  発話 ||| Type ||| Queryset
夏目漱石の生年月日を教えて下さい ||| Question ||| 夏目漱石,生年月日
今日はいい天気ですね ||| Dialogue ||| 
計算言語学では何を研究しますか ||| Question ||| 計算言語学,とは

計量言語学

テンプレート:See also テンプレート:See also

統計手法

出現頻度

文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。

n-gram

1 つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。

共起頻度

一定区間に n 個の単位が出現 (共起) する頻度。2 つの単語が一緒に出てくる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。

応用

現在の研究課題

計算言語学の主な研究課題には以下のものがある。

  • コンピュータ支援コーパス言語学
  • 自然言語のパーサ設計
  • 品詞判別
  • 敬語文の作成支援
  • 機械翻訳
  • 文の誤り訂正
  • 自動要約

外部リンク

関連項目

cs:Kvantitativní lingvistika fa:زبان‌شناسی محاسباتی id:Linguistik komputasional ro:Lingvistică computaţională