RONDHUIT ロゴ 株式会社ロンウィット ロゴ
 
検索エンジン
ソリューション
製品比較
コンサルティング&サポートサービス
用語解説
デモ
無料セミナー
ダウンロード
ニュース、プレスリリース
書籍・雑誌記事
採用
会社案内
お問合せ


ホームページと社長ブログ
横断検索を行います。
 
 
> インデックス
> N-gram
> エンタープライズサーチ
> 企業内検索
> クローラ
> 形態素解析
> 検索式
> スコア
> 全文検索
> Solr
> 単語とフレーズ
> 転置索引
> 文書
> ランキング
> Lucene
 
 
インデックス(いんでっくす)
転置索引を参照してください。
N-gram(えぬぐらむ)
文章から文字列の長さを基準にして機械的に単語を抽出する方式のことです。N-gramは抽出する単語の長さで1-gram、2-gram、3-gram、・・・などと具体的に呼ばれるものの総称です(Nが1〜3の場合はそれぞれuni-gram、bi-gram、tri-gramなどとも呼ばれます)。

たとえば、弊社名「ロンウイット」を2-gramで処理すると、「ロン」「ンウ」「ウイ」「イッ」「ット」という5つの単語が抽出できます。

N-gram方式は形態素解析方式と異なり、辞書を使わないため、辞書のメンテナンスなどのわずらわしさがありません。また、検索漏れが少ないとも言われます。その反面、文書中の単語がたまたまN-gramで抽出された単語とヒットしてしまい、思わぬ文書が検索結果に含まれてしまうという「ノイズ」が増える欠点があります。たとえば、「東京都」というテキストを2-gramで分割すると「東京」と「京都」に分割されるため、「京都」という単語で「東京都」がヒットしてしまいます。また、一般的にN-gram方式で作成した転置索引形態素解析方式で作成した転置索引と比較して、サイズが大きくなる傾向があります。
 
エンタープライズサーチ(えんたーぷらいずさーち)
ひとことでいうと、企業内「統合検索窓」を実現するシステムのことです。いまや会社・組織内にはファイルサーバやグループウェア、社内ブログ、営業日報システム、ERP/SFA/CRM、・・・といったさまざまなシステムが乱立しており、必要な文書を探すのが困難になっています。過去に自分や同僚が作成した文書が見つけられないために、似たような文書をしかたなく再作成している、という話は珍しくありません。

そこで社内に散らばっている情報を一回で横断的に検索してしまおう、というエンタープライズサーチ(企業内検索ともいいます)の考え方が登場しました。これにより、社内の情報共有/知識共有を推進し、余った時間をより創造的な作業に振り向けることができるようになります。

エンタープライズサーチは従来の検索とは異なり、ユーザの権限によって検索結果の表示/非表示を制御するセキュリティ(アクセスコントロール)を考慮する必要があります。また、さまざまなシステムを横断的に検索するために、シングルサインオンの実現も必要になってきます。
 
企業内検索(きぎょうないけんさく)
エンタープライズサーチを参照してください。
 
クローラ(くろーら)
転置索引を作成するために、インターネットやイントラネット、ファイルサーバなどから情報を収集するプログラムのことです。ロボットやスパイダなどとも呼ばれます。
 
形態素解析(けいたいそかいせき)

文章から単語を抽出するのに、辞書を用いて単語の区切りを判定する方式です。辞書に載っていない文字列は単語と認識できないため、流行語や新語に対応するために辞書のメンテナンスが必要、というわずらわしさがあります。その反面、N-gram方式と比較して「検索結果にノイズが少ない」、「転置索引のサイズが小さい」などのメリットもあります。

 
検索式(けんさくしき)
検索窓に入力された検索文字列のことです。簡単な単語やフレーズのこともあれば、AND/OR/NOTなどの演算子や()を使ったBoolean検索、[ ] を使った範囲検索など複雑な検索文字列になることもあります。検索窓に入力できる文字列が数式と似ていることからこのように呼ばれます。検索式の書式は検索エンジンにより異なります。
 
スコア(すこあ)
検索結果の表示順序(ランキングといいます)を適切に求めるため、検索エンジンが検索にヒットした文書につける数値(点数)のことです。この数値の大きい文書ほどユーザが探している文書であると検索エンジンが判断したことになり、ランキングが上位になります。

検索エンジンによりスコアの計算方法は異なりますが、一般的にはスコアは文書と検索式の関数となっています。
 
全文検索(ぜんぶんけんさく)
全文検索とは、検索対象となる1つ以上の文書の全文テキストを対象として、指定された検索文字列(検索式ともいいます)で検索を行い、検索文字列が含まれる文書を表示する機能やシステムのことです。

全文検索の身近な例としては、UNIXシステムのgrepコマンドやRDBのlike検索があげられます。「grep方式」は検索実行のたびに検索対象の文書を読み込んで検索するため、文書が大量にあるときに検索時間がかかるという難点があります。そのため、「grep方式」は大規模システムには適しません。

そこで、大規模システムで使用される全文検索システムでは、検索処理を開始する前に、あらかじめ転置索引というものを作成しています。そして、検索時に転置索引を使用して検索を行うようになっています。
 
Solr(そーらー)
Luceneを使って開発された検索サーバです。Solrに検索のHTTPリクエストを投げると、検索結果レスポンスをXML形式で返してきます。このため、Solr検索サーバをバックエンドに配置し、フロントエンドをPHPやRuby on Railsで開発する、という開発スタイルをとるが可能です。
 
単語とフレーズ(たんごとふれーず)
単語は検索エンジンの最小処理単位の文字列で、転置索引のエントリを構成します。転置索引を引くためにも使われます。

フレーズ(成句ともいいます)は単語が集まった文字列です。たとえば、「体験学習」は「体験」と「学習」という2つの単語からなるフレーズです。
 
転置索引(てんちさくいん)
検索対象となる文書を図のように単語に分割して整理した表を転置索引といいます。転置索引は英語でinverted indexといい、単にインデックスとも呼ばれます:
検索実行時には、検索文字列を同じく単語に分割し、得られた単語で転置索引の表を引くことですばやくその単語を含む文書を示すことができます。
 
文書(ぶんしょ)
文書は検索エンジンで検索される単位です。たとえば、「PDFファイル」や「商品情報」などが検索エンジンの「文書」となります。
 
ランキング(らんきんぐ)
検索結果ページにおける文書の表示順序のことです。
 
Lucene(るしーん)
Apache Software Foundationのもとで開発されている、オープンソース・ソフトウェアのJavaの全文検索ライブラリです。

Luceneについて詳しくは、旧解説ページや技術入門書「Apache Lucene入門」をご覧ください。
 
Copyright (c) 2006-2008 RONDHUIT Co., Ltd. All Rights Reserved.