自然文検索とは
自然文検索は、入力した独自の文章(自然文)から文書を検索する機能です。利用者が入力した自然文から特徴的なキーワードを抽出し、抽出キーワードを検索条件として、データベースに対して全文検索を行い、その結果をランキングして、ランキングの高い文書を結果とします。
自然文検索は、次の3つの基本機能の組合せで実現しています。
- 関連語抽出機能
- 全文検索機能
- 重要度ランキング(スコア)機能
1.関連語抽出機能
関連語抽出では、検索要求として与えられた自然文に出現するさまざまな単語の中から、特徴的と思われる語をキーワードとして抽出します。
特徴的であるかどうかということは、各語の出現頻度/出現文書数/出現分布等を組み合わせた計算式や、その語が内容を示す語であるかどうか(附属語などの不要語でないか)ということから判断します。
入力した文章が非常に短い場合、十分なキーワードが抽出できないこともあります。そのような場合には、特徴的と思われる文字列(検索システム側から見ると未知語に相当します)も抽出対象とすることによって、より柔軟で高精度な検索が行えるようになっています。
2.全文検索機能
全文検索では、関連語抽出機能で抽出された複数のキーワードのうち、少なくとも一つが出現している記事を検索します。つまり、抽出キーワードをOR演算子でつないだ検索を行います。
3.重要度ランキング(スコア)機能
重要度順ランキングでは、全文検索機能で求められた結果を重要度順にソートします。重要度の計算は、通常の重要度順ソートの場合と同様です。
ここで求められる重要度とは、全文検索機能で使用した検索条件(抽出したキーワードのOR結合論理式)にどれだけ適合するか、という度合いを表すことになります。このようにすることで、全文検索機能で求められた検索結果の中から、検索入力とした自然文と類似度の高い順番に閲覧することができます。したがって、自然文検索を行なった場合は見出しを重要度順で出力されることをお勧めします。
重要度についての詳細は
スコアのヘルプをご参照ください。