ベクトル空間モデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』
ベクトル空間モデルとは情報検索を行うためのアルゴリズムの一つ。ベクトル空間モデルによる検索は高次元のベクトル空間上に配置した検索対象のベクトル表現と検索語のベクトル表現の相関量をコサイン、内積、距離等によって計算して関連度を求める。
メタデータ生成法
単語文書行列
単語文書行列とはメタデータの生成・表現法の一つであり、ベクトル空間モデルによる検索を行う際に非常に頻繁に用いられるメタデータの形式である。一般に単語文書行列は以下に示す構造を持つ。
単語文書行列:
<math> \mathcal{M} = \begin{pmatrix} & d_1 & d_2 & d_3\\ t_1 & 0 & 2 & 1\\ t_2 & 1 & 1 & 2\\ t_3 & 0 & 0 & 3\\ \end{pmatrix} </math>
文書diに単語tjがn回出現するとき、wijをnとし、行列を形成する。単純に出現回数を利用する以外にtf-idf等のアルゴリズムによって得た重みを用いる生成方法がしばしば行われる。tf-idfは下に示すように定義される。
tf-idf:
<math>\mathit{tfidf}^{d}_{t} = </math> | <math>\mathit{tf}^d_t\cdot \log\frac{N}{\mathit{df}_t} + 1</math> |
<math>\mathit{tf}^d_t :</math> | |
<math>\mathit{df}_t : </math> | |
<math>N:</math> |