Apache OpenNLP

Apache OpenNLP は教師あり機械学習に基づく自然言語処理エンジンです。バージョン1.9.0から正式に日本語がサポートされました。

さまざまな自然言語処理タスクをサポートしますが、主な機能を紹介します。

固有表現抽出
日本語などの自然言語で書かれたテキストには人名、地名、組織名などの固有名詞が含まれています。これらの固有名詞を属性(固有名詞タイプ)付きで抽出する技術が「固有表現抽出」と呼ばれるものです。たとえば、検索エンジンなどのアプリケーションと組み合わせて使うと、検索精度向上に役立てることができます。

固有名詞タイプは、人名など一般的なものから、病名、料理名、イベント名など、アプリケーションに応じてさまざまなタイプを使うことができます。

文書分類
新聞記事など自然言語で書かれた記事・文書に分類ラベルを自動付与する機能です。たとえば文書を投稿するサイトで、投稿された文書に自動的に「スポーツ」「芸能」「政治」「経済」などのラベルを自動付与するなどの応用例が考えられます。

分類される対象はテキスト文書に限りませんので、自動与信審査やスパムメール判定などにも応用することが可能です。

言語判別
自然言語で書かれたテキストが「何語」で書かれているかを自動判別する機能です。日本語、英語はもちろんのこと、ドイツ語、フランス語、ロシア語、アラビア語、中国語、韓国語など103言語をカバーしています。

関連リンク


関連記事

トレーニングコース

ロンウイットのトレーニングは、Lucene/Solrの経験豊富なコミッターの
監修のもと開発されたハンズオン(実習)形式のコースです。

セミナー

ロンウイットのApache Software Foundationコミッターが、情報検索の基礎、自然言語処理、そして、ユーザにとっての効果についてご説明させていただきます。