INFORMATION
テクノロジ

Apache Lucene 7.4.0 が公開されました!

Apache Lucene 7.4.0 が 2018 年 6 月 27 日に公開されました。

Apache Lucene は完全に Java で書かれたハイパフォーマンスな全文検索エンジンです。今回行われた主なアップデート内容を以下に記します。

主なアップデート – バグ修正,最適化,機能強化

  • mecab-ko-dic(IPADic ベース)をベースとした韓国語の形態素解析器が使用可能になりました
  • uax29 にて定められている「絵文字」を ICUTokenizer にて1トークンとして扱うことができるようになりました
  • minimum-interval semantics と呼ばれるアルゴリズムを使い,クエリ文字列とそれを満たすドキュメント内文字列の位置関係を考慮して検索できる IntervalQuery が使用になりました
  • Weight.matches が実装されたことにより,全クエリにおいて,クエリにマッチしたポジションを返すパフォーマンスが向上しました。またこれによってハイライターの実装が容易になり,より正しくハイライトできるようになりました
  • 削除されたドキュメント(削除フラグが立ったドキュメント)がマージセグメントの際にどの程度削除されるのかカスタムできるようになりました
  • DocValues に格納されている値を再セットできるようになりました
  • 登録ドキュメントの更新から DocValues への値格納までがアトミックな操作となりました

リリースの詳細と Lucene ダウンロードについて

すべての新機能および変更点に関しては CHANGES.txt を参照してください。 https://lucene.apache.org/core/7_4_0/changes/Changes.html

現在の最新の Lucene ダウンロードについては下記 URL を参照して下さい。 http://lucene.apache.org/core/mirrors-core-latest-redir.html


トレーニングコース

ロンウイットのトレーニングは、Lucene/Solrの経験豊富なコミッターの
監修のもと開発されたハンズオン(実習)形式のコースです。

セミナー

ロンウイットのApache Software Foundationコミッターが、情報検索の基礎、自然言語処理、そして、ユーザにとっての効果についてご説明させていただきます。