INFORMATION
サービス

Lucene/Solr Revolution 2017レポート　その２

９月１４日、１５日の日程でUSラスベガスで開催中のLucene/Solr Revolution2017に参加していますので、2日目の内容を現地よりレポート致します。（記事：中山久司）

OpeningRemarks

開催ホストのLucidworks社エンジニアリングSVPのから本日のAgendaの紹介とSolr７や自社製品Fusionの紹介がありました。

KeyNote1:Vegas.com

ラスベガスを紹介する旅行サイトであるVegas.comのディレクターで18年の経験を持つPaulMelloがWebサイト開発やマーケティング、製品ベンダー選択について話しました。

KeyNote2:The Search for Better Search at Reddit

Redditはウェブサイトへのリンクを収集・公開するソーシャルブックマークサイトであり、ニュース記事、画像などの紹介や感想募集のトピックを誰でも立てられるソーシャルニュースサイトであり、電子掲示板で、会社は2005年に設立されました。コンテンツはユーザーの投票によってランク付けが行われ、表示はランク順となります。

はじめに技術担当VPのNickCaldwellが会社の紹介をしました。Redditは全米No4のアクセス数を誇るサイトです。

次にCTOのChrisSloweにバトンを渡し、実際のシステムについての話があり、

さらに検索担当シニアディレクターのLuis Bitencourt-Emilioが登壇。検索のこれまでの課題と解決した内容を話しました。

彼らの次のチャレンジはパーソナライズになりそうです。

Learning-to-Rank with Apache Solr and Bees

ドイツ出身、UK在住のBloombergの検索インフラチームに所属するソフトウェア開発者でありLucene/Solrコミッター&PMCのChristine Poerschke(PhD)が機械学習を利用したSolrのランキング学習について話します。

beeと honeyは日本語では蜂と蜂蜜なので関連すると判断できますが、（彼女の趣味は養蜂です）英語ではどのように判断すればよいでしょうか？　基本的な考え方は beeとhoneyがよく一緒にコーパス（今回の例ではtwitterのつぶやき文）に出現することを機械学習させて利用するというものです。

彼女が開発したLTR機能は最新のSolr6.6.1にプラグインとして含まれており、デモもGithubで公開されています。

LTR機能を活用するには、検索技術者の支援が必要になります。ロンウイットでもLTRを独自実装したSolrサブスクリプションをサポート付きで提供していますので、ぜひお問い合わせ下さい。

Indexing Videos in Solr

FindLectures.comは技術や歴史の話題、学術系講義を提供するサイトで、発表者のGary SielingはWingspan Technologyのソフトウェアアーキテクトです。

このサイトでは日々追加されるインターネット上の動画や音声のコンテンツに対してレイティングやリコメンドを実施しています。 FindLectures.comではカンファレンスサイトをクロールし、出演者の名前や経歴説明文や日付などのメタデータを入手してリコメンドを試みますが、これらのデータはサイトを跨っていたり欠損していたりします。 Solrのような全文検索エンジン向けに、より洗練された方法はないものでしょうか？　このセッションではクロールで蓄積された動画を利用し機械学習によって情報を取り出す仕組みを知ることができ、検索エンジンと共に利用するヒントを得ました。

ランチ

　ランチは昨日と同じ形式でサラダとチキンという内容です。　美味しく頂きました。（食べかけの写真ですみません）

Relevance in the Wild

ストックホルムから来たコンサルティング会社FindwiseのDaniel Gomez Villanuevaが検索結果の妥当性の話をしました。

TF-IDF,norm などのSolrを含む検索の世界での基本知識となる数式の説明があり、Solr6からTF-IDFに代わってデフォルトになったBM25を解説。 Edismaxについても説明があり、　基本をわかった上でテスト環境、本番環境で実施・評価することを推奨していました。

Apache Solr: Upgrading Your Upgrade Experience

Cloudera社のエンジニアHrishikesh GadreがSolrのバージョンアップについて話しました。

大企業において広く使われているにも関わらず、Solrには自動バージョンアップのツールが備わっていません。ユーザー企業にとって、Solrのバージョンアップを実施することは厄介な仕事です。各バージョンのリリースノートをしっかり読み、互換性がない部分がどこかそれが自分達のシステムにどのように影響するかを予想し、実際にテスト確認をする必要があるからです。

加えて、既存のINDEXデータを新しいバージョンに適応させる必要がありますが、index upgradeを行うか生データから再度indexingするかの選択も必要です。 Solrに限らず、安定稼働しているシステムのバージョンアップは新機能が有効とみなされない限りなかなか踏み切れない企業もあるようです。実際にバージョンアップ作業は煩わしくミスも発生しやすいものです。

このセッションでは、典型的なバージョンアップ作業でよく見られる課題と解決策について議論されました。

基本的にはデータはきっちりバックアップしリカバーできるように常に実施しておき、メジャーバージョンアップには追従するのがおすすめで、2つ遅れたら再構築がよさそうです。実施時はリリースノートやJIRAの情報に気を配り、可能であれば経験者の支援を受けるのがよいでしょう。最後に彼が作成しているツールのデモも行われました。（Githubに公開されているので、参加して欲しいとのこと）