INFORMATION
テクノロジ

Apache ManifoldCF -セットアップ-

Apache ManifoldCFのセットアップ手順をご説明します。

  1. 最初に前提となる実行環境を準備します。
    • Java 5以上の環境にします。
    • Apache Antをセットアップします。ManifoldCFのビルドに使用します。
      適当なディレクトリに展開して「そのディレクトリ/bin」を環境変数に設定します。
    • PostgreSQL8.4以上をセットアップします。ManifoldCFの管理データベースとして使用します。
  2. ManifoldCFをセットアップします。
    • ManifoldCFをダウンロードします。
    • 適当なディレクトリに展開します。ここでは説明の便宜上、/home/mcfディレクトリにダウンロードして展開することとします。
      $ cd /home/mcf
      # ここにダウンロードして...
      # ダウンロードしたファイルを展開
      $ tar xzvf apache-manifoldcf-0.3-incubating-src.tar.gz
      
    • jcifs.jarをダウンロードします。
      Windows共有サーバのクロールで利用するのに必要なjarファイルです。
    • jarファイルをManifoldCFの次の展開先ディレクトリに配置します。
      # 名称を変更します
      $ mv jcifs-1.x.x.jar jcifs.jar
      # 配置します
      $ cp jcifs.jar /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating/connectors/jcifs/jcifs
      
    • ビルドを実行します。
      $ cd /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating
      # ビルド
      $ ant build
      
  3. ManifoldCFを実行します。
    • ManifoldCFの実行プログラムのディレクトリに移動し、設定ファイル(properties.xml)を編集します。PostgreSQLの接続設定を行います。
      $ cd /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating/dist/example
      # 設定ファイルを編集します
      $ emacs properties.xml
      
    • 次の一行を削除します。
    •     :
      <property name="org.apache.manifoldcf.databaseimplementationclass" value="org.apache.manifoldcf.core.database.DBInterfaceDerby"/>
          :
      
    • PostgreSQLに関するproperty行を追加します。postgresql.hostname以下のvalueは適宜編集します。
    • <configuration>
          :
        <property name="org.apache.manifoldcf.databaseimplementationclass" value="org.apache.manifoldcf.core.database.DBInterfacePostgreSQL"/>
        <property name="org.apache.manifoldcf.postgresql.hostname" value="127.0.0.1"/>
        <property name="org.apache.manifoldcf.postgresql.port" value="5432"/>
        <property name="org.apache.manifoldcf.dbsuperusername" value="postgres"/>
        <property name="org.apache.manifoldcf.dbsuperuserpassword" value="password"/>
        <property name="org.apache.manifoldcf.database.name" value="dbname"/>
          :
      </configuration>
      
    • ManifoldCFの実行プログラムを実行します。
      $ java -jar start.jar
      
    • 次のURLにブラウザからアクセスし、ManifoldCFの管理画面が表示できていることを確認します。
      http://localhost:8345/mcf-crawler-ui/
      
    • 以上で、ManifoldCFのセットアップと実行が完了です。


次に、Apache SolrのManifoldCF向け設定手順をご説明します。

ManifoldCFは、クロールしたドキュメントデータをSolrに投入します。
Solrはこの時、ドキュメントデータを受け取ってインデックスを作成します。
ここでは、ManifoldCFに合わせて必要な設定を、Solrに対して準備しておきます。

  1. Solrをダウンロードし適当なディレクトリに展開します。
    • Solrの実行プログラムの定義ファイルを編集します。
      $ cd /home/solr/apache-solr-3.4.0/example/solr/conf
      
  2. schema.xmlの編集
    • schema.xmlを開き、次の箇所で「stored=”false”」を「stored=”true”」に変更します。(ドキュメントのコンテンツが”text”フィールドにインデクシングされるのを目視確認するために暫定的に変更します。)
          :
      <fields>
          :
        <field name="text" type="text_general" indexed="true" stored="true" multiValued="true"/>
          :
      
  3. solrconfig.xmlの編集
    • 次に、solrconfig.xmlを開き、次の箇所で”uprefix”の値「ignored_」を「attr_」に変更します。(ドキュメントのコンテンツ属性が”attr_”ダイナミックフィールドにインデクシングされるのを目視確認するために暫定的に変更します。)
          :
        <requestHandler name="/update/extract" 
                        startup="lazy"
                        class="solr.extraction.ExtractingRequestHandler" >
          :
            <str name="uprefix">attr_</str>
          :
      
  4. Solrの実行プログラムを実行します。
    $ cd /home/solr/apache-solr-3.4.0/example
    $ java -jar start.jar
    
  5. 次のURLにブラウザからアクセスし、Solrの管理画面が表示できていることを確認します。
    http://localhost:8983/solr/admin/
    
  6. 以上で、Solrの準備が完了です。


次回は、ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。
ファイルサーバ、Windows共有サーバ、データベースに対するクロールについて順次、動作のご説明をします。

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!