INFORMATION
テクノロジ

NExTR on Railsを使う

固有表現抽出ツールNExTR on Rails(以下NEXTRRと記述)の簡単な使い方を紹介します。

  1. 最初にNEXTRRをダウンロードサイトからダウンロードします。
  2. ダウンロードしたファイル(nextr-1.0.0.tar.gz)を解凍ツールやtarコマンドで解凍します。
    $ tar xvzf nextr-1.0.0.tar.gz
  3. 解凍してできたファイルをVMWareで起動します。
    起動時に「この仮想マシンは使用中の可能性があります。」と表示された場合は、「再度開く」を選択し、「所有権を取得」を選択して先に進みます。
    また、起動時に「この仮想マシンは移動またはコピーされた可能性があります。」と表示された場合は、「コピーしました」を選択して先に進みます。
  4. 起動したらユーザ名:next、パスワード:chasenでログインします。
  5. ifconfigでIPアドレスを調べます。
    $ ifconfig
    ネットワークが起動していないと思われる場合、仮想マシンのMACアドレスを調べます。nextr.vmwarevm/nextr.vmxファイルの「ethernet0.generatedAddress = “00:0c:29:xx:xx:xx”」という行を見つけます。そしてNEXTRRにて/etc/udev/rules.d/70-persistent-net.rulesファイルをエディタでオープンします。
    $ sudo vi /etc/udev/rules.d/70-persistent-net.rules
    そして、NAME=”eth0″の行のMACアドレスが違うはずなのでこの行を#でコメントアウトします。そしてその下にMACアドレスが一致するNAME=”eth1″の行があるはずなので、これをeth0に変更して再起動します。
    $ sudo shutdown -r now
    そして再度ログインしてifconfigでIPアドレスを調べます。
  6. products/nextr-GPL2/text-nextr.htmlファイルをscpコマンド等を使ってローカル環境にコピーします。
    $ scp next@<IPアドレス>:products/nextr-GPL2/text-nextr.html text-nextr.html
  7. ローカル環境にコピーしたtext-nextr.htmlをエディタで開き、”localhost”となっているところをNEXTRRのIPアドレスに書き換えます。
  8. ブラウザでtext-nextr.htmlを開き、入力ボックスに地名や組織名などの固有名詞を含む文章を入力します。たとえばここでは「自由民主党の谷垣総裁が今朝、新幹線で東京駅に到着しました。」と入れてみます。
  9. analyzeボタンをクリックするとNEXTRRにリクエストが飛んで、解析結果がXMLで次のように戻ってきます。
    <result>
      <ORGANIZATION>自由民主党</ORGANIZATION>
      <PERSON>谷垣</PERSON>
      <GPE>東京</GPE>
      <STATION>東京駅</STATION>
    </result>
    


次回は、Solrと組み合わせて使う方法を紹介します。

関連リンク


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!