お問い合わせ採用情報お客様ログイン

RONDHUIT

テクノロジINFORMATION

ホーム > テクノロジ > Apache ManifoldCF -セットアップ-

Apache ManifoldCF -セットアップ-

2011.08.11
Apache ManifoldCFのセットアップ手順をご説明します。

  1. 最初に前提となる実行環境を準備します。
    • Java 5以上の環境にします。
    • Apache Antをセットアップします。ManifoldCFのビルドに使用します。
      適当なディレクトリに展開して「そのディレクトリ/bin」を環境変数に設定します。
    • PostgreSQL8.4以上をセットアップします。ManifoldCFの管理データベースとして使用します。
  2. ManifoldCFをセットアップします。
    • ManifoldCFをダウンロードします。
    • 適当なディレクトリに展開します。ここでは説明の便宜上、/home/mcfディレクトリにダウンロードして展開することとします。
      $ cd /home/mcf
      # ここにダウンロードして...
      # ダウンロードしたファイルを展開
      $ tar xzvf apache-manifoldcf-0.3-incubating-src.tar.gz
      
    • jcifs.jarをダウンロードします。
      Windows共有サーバのクロールで利用するのに必要なjarファイルです。
    • jarファイルをManifoldCFの次の展開先ディレクトリに配置します。
      # 名称を変更します
      $ mv jcifs-1.x.x.jar jcifs.jar
      # 配置します
      $ cp jcifs.jar /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating/connectors/jcifs/jcifs
      
    • ビルドを実行します。
      $ cd /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating
      # ビルド
      $ ant build
      
  3. ManifoldCFを実行します。
    • ManifoldCFの実行プログラムのディレクトリに移動し、設定ファイル(properties.xml)を編集します。PostgreSQLの接続設定を行います。
      $ cd /home/mcf/manifoldcfapache-manifoldcf-0.3-incubating/dist/example
      # 設定ファイルを編集します
      $ emacs properties.xml
      
    • 次の一行を削除します。
    •     :
      <property name="org.apache.manifoldcf.databaseimplementationclass" value="org.apache.manifoldcf.core.database.DBInterfaceDerby"/>
          :
      
    • PostgreSQLに関するproperty行を追加します。postgresql.hostname以下のvalueは適宜編集します。
    • <configuration>
          :
        <property name="org.apache.manifoldcf.databaseimplementationclass" value="org.apache.manifoldcf.core.database.DBInterfacePostgreSQL"/>
        <property name="org.apache.manifoldcf.postgresql.hostname" value="127.0.0.1"/>
        <property name="org.apache.manifoldcf.postgresql.port" value="5432"/>
        <property name="org.apache.manifoldcf.dbsuperusername" value="postgres"/>
        <property name="org.apache.manifoldcf.dbsuperuserpassword" value="password"/>
        <property name="org.apache.manifoldcf.database.name" value="dbname"/>
          :
      </configuration>
      
    • ManifoldCFの実行プログラムを実行します。
      $ java -jar start.jar
      
    • 次のURLにブラウザからアクセスし、ManifoldCFの管理画面が表示できていることを確認します。
      http://localhost:8345/mcf-crawler-ui/
      
    • 以上で、ManifoldCFのセットアップと実行が完了です。


次に、Apache SolrのManifoldCF向け設定手順をご説明します。

ManifoldCFは、クロールしたドキュメントデータをSolrに投入します。
Solrはこの時、ドキュメントデータを受け取ってインデックスを作成します。
ここでは、ManifoldCFに合わせて必要な設定を、Solrに対して準備しておきます。

  1. Solrをダウンロードし適当なディレクトリに展開します。
    • Solrの実行プログラムの定義ファイルを編集します。
      $ cd /home/solr/apache-solr-3.4.0/example/solr/conf
      
  2. schema.xmlの編集
    • schema.xmlを開き、次の箇所で「stored=”false”」を「stored=”true”」に変更します。(ドキュメントのコンテンツが”text”フィールドにインデクシングされるのを目視確認するために暫定的に変更します。)
          :
      <fields>
          :
        <field name="text" type="text_general" indexed="true" stored="true" multiValued="true"/>
          :
      
  3. solrconfig.xmlの編集
    • 次に、solrconfig.xmlを開き、次の箇所で”uprefix”の値「ignored_」を「attr_」に変更します。(ドキュメントのコンテンツ属性が”attr_”ダイナミックフィールドにインデクシングされるのを目視確認するために暫定的に変更します。)
          :
        <requestHandler name="/update/extract" 
                        startup="lazy"
                        class="solr.extraction.ExtractingRequestHandler" >
          :
            <str name="uprefix">attr_</str>
          :
      
  4. Solrの実行プログラムを実行します。
    $ cd /home/solr/apache-solr-3.4.0/example
    $ java -jar start.jar
    
  5. 次のURLにブラウザからアクセスし、Solrの管理画面が表示できていることを確認します。
    http://localhost:8983/solr/admin/
    
  6. 以上で、Solrの準備が完了です。


次回は、ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。
ファイルサーバ、Windows共有サーバ、データベースに対するクロールについて順次、動作のご説明をします。

▲ ページの先頭に戻る

ピックアップ

お問い合わせ

 

PAGE TOP
HOME
Apache Solr, Lucene, Hadoop, Mahout, Spark, ManifoldCF, UIMA and their logos are trademarks of the Apache Software Foundation.
Copyright © 2006-2017 RONDHUIT Co, Ltd. All Rights Reserved.