INFORMATION
テクノロジ

Apache Lucene 8.5.0 が公開されました!

Apache Lucene 8.5.0 が 2020 年 3 月 24 日に公開されました。

Apache Lucene は完全に Java で書かれたハイパフォーマンスな全文検索エンジンです。今回行われた主なアップデート内容を以下に記します。

主なアップデート – 新機能

  • XYPointField は、フラットな X,Y スペース内の点をインデックスできるようになりました。
    そして、より効率的に与えられた距離や多角形の中にあるドキュメントを探すことができるようになりました。
  • LatLonShape に新しいクエリビルダーが追加されました。
    LatLonShapeの新しいクエリビルダーにより、ポイントまたは多角形との特定の関係を持つドキュメントを効率的に検索できるようになりました。
  • PointField は、16 データディメンションまで格納できるようになりました。
  • Korean Tokenizer は、カスタム辞書を使用できるようになりました。
  • 新しく Japanese Tokenizer に discardCompoundToken が設定できるコンストラクターが追加されました。
    このコンストラクターによって、 Japanese Tokenizer の モード が、NORMAL 以外でも、トークナイザーが、オリジナルトークンを出力するかを指定することができます。
    これにより、Japanese Tokenizer を SEARCH モードや EXTENDED モードにて、 SynonymGraphFilter, SynonymFilter と併用すると、トークンが正しく分解されなかった問題を解決しました。

主なアップデート – 最適化,機能向上

  • Binary docValues が圧縮されるようになり、 term dictionary の圧縮率が上がりました。
  • 全ての docValues の更新において、一つのフィールドを同じ値にアップデートするときに起きる、インデックスをフラッシュする処理が 20% 速くなりました。
  • stored と term vector の情報が、off-heap に格納されるようになりました。
  • QueryBuilder をベースにした QueryParser は、トークンストリームの BoostAttribute を設定することで、特定のタームやシノニムをブーストすることができます。
  • インターバルクエリーは、繰り返されるサブクエリに対して、正しく動作するようになりました。

リリースの詳細と Lucene ダウンロードについて

すべての新機能および変更点に関しては CHANGES.txt を参照してください。 https://lucene.apache.org/core/8_5_0/changes/Changes.html

現在の最新の Lucene ダウンロードについては下記 URL を参照して下さい。 http://lucene.apache.org/core/mirrors-core-latest-redir.html


KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

  • セマンティックサーチ

    人間が理解するように検索エンジンがテキストや画像を理解して検索できます。

  • クローラー

    検索対象文書を収集するWebクローラーが使えます。

  • 簡単操作のUIと豊富なライブラリー

    検索や辞書UIに加え、定義済み専門用語辞書/類義語辞書やプラグインがあります。

  • ローコードで低コスト導入

    検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験!