INFORMATION
テクノロジ

Apache Lucene 8.2.0 が公開されました!

Apache Lucene 8.2.0 が 2019 年 7 月 26 日に公開されました。

Apache Lucene は完全に Java で書かれたハイパフォーマンスな全文検索エンジンです。今回行われた主なアップデート内容を以下に記します。

主なアップデート – API 変更

  • IntervalQuery が安定的に利用されてきたため sandbox から外され query モジュールとして利用できるようになりました。
  • 主なアップデート – 新機能

  • 新しく XYShape というフィールドタイプが追加され,より柔軟な空間検索が可能になりました。
  • エストニア語の Snowball stemmer/analyzer が利用可能になりました。
  • 新しく FeatureSortfield が追加され,PageRank などが格納されることを期待されている FeatureField でソートできるようになりました。
  • 新しく KoreanNumberFilter が追加され,ハングル数字を算用数字に変換できるようになりました。
  • range field で doc-value がサポートされました。
  • Luwak(https://github.com/flaxsearch/luwak) が Lucene プロジェクトに取り込まれました。Luwak は大量のクエリをストアでき,インデクシングできないような速度で流れてくるストリーミングデータを検索する際に有効なツールです。通常は検索対象をインデクシングし,クエリはインデクシングしませんが,Luwak では逆にクエリをインデクシングし,検索対象はインデクシングしないのが特徴です。クエリをインデクシングするので,ストリーミングデータ1つに対して,大量のクエリがある時に有効です。
  • インデックスのソートに有効な numeric range query が sandbox に追加されました。
  • 主なアップデート – バグ修正

  • IntArrayDocIdSet#advance 使用時にバイナリサーチの代わりに指数探索を使用するようになりました。
  • IndexSearcher が executor を持っている際に,待機しているだけのスレッドがないよう効率的に使用するようになりました。
  • BKD ツリーのデータ構造を最適化することで,この異なり数が少ない時にディスクサイズの削減と検索速度が向上するようになりました。
  • BlockDocsEnum,BlockImpactsEverythingEnum をロードする際に,頻度情報が必要ない場合は遅延させてロードするようになりました。
  • 高頻度な語から成るフレーズクエリのパフォーマンスが改善されました。
その他のバグフィックスについては CHANGES.txt をご参照下さい。

リリースの詳細と Lucene ダウンロードについて

すべての新機能および変更点に関しては CHANGES.txt を参照してください。 https://lucene.apache.org/core/8_2_0/changes/Changes.html

現在の最新の Lucene ダウンロードについては下記 URL を参照して下さい。 http://lucene.apache.org/core/mirrors-core-latest-redir.html


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!