INFORMATION
テクノロジ

[インタビュー] Solr 3.5 トレーニングコース受講者 Cloudera 田澤孝之 様

Solr 3.5 基礎の定期開催トレーニングコースを受講されました、米Clouderaディレクターの田澤さんに、受講後のインタビューに応じていただきました。

Clouderaについて

ロンウイット関口「Clouderaという会社について教えてください」
Cloudera田澤「2008年10月に創業したHadoopの専業ベンダーです。CDH(Cloudera’s Distribution including Apache Hadoop)やCloudera Managerという製品を持っています。もちろんHadoopに関連したコンサルティングやサポート、教育も行っています。Hadoop創始者のDougは2009年前半にJoinしました」

Cloudera 田澤孝之 さん

Cloudera 田澤孝之 さん

関口「Hadoopのディストリビューターというと他にもあるようですが、Clouderaの特徴はなんでしょうか」
田澤「MapRやHortonworksですね。MapRはAPIはHadoop互換を謳っていますが、足回りをC/C++で再実装していて高性能を武器にしているようです。HortonworksはYahoo!からスピンアウトした人たちが立ち上げた会社で、できてまだ日が浅く、GAになっている製品がありません。Clouderaはコミュニティで開発されたHadoop 1.0(0.20系)を使っており、「オレオレバージョンではない」「すでにYahoo!で数千ノードで稼働している」という実績があるのが特徴です。もっとも、調査会社のForresterによれば、Amazon(Elastic MapReduce)やIBM(InfoSphere)、EMC(Greenplum)がうちも含めた前述の会社よりHadoopのEnterprise市場で影響力のある会社として評価されているようです(笑)」

関口「Clouderaにおいて田澤さんはどのような業務を担当していますか」
田澤「日本でのビジネスの立ち上げやClouderaの普及です」

トレーニングコース受講の動機

関口「今回トレーニングコースを受講していただいた動機はなんでしょうか」
田澤「関口さんもご存知の通り、DougはLuceneの創設者でもあり、Hadoopと検索は近しい関係にあります。DougはLuceneを開発した後、Webクローラーを搭載したNutchを開発しました。しかし、Web相手だとなかなかスケールしない。そこにGoogleの論文が発表され、そのアイディアをNutchに適用しようと考えました」

関口「HDFSとMapReduceですね」
田澤「当時はHDFSではなくNDFSと呼んでいました。Dougいわく、「2年間パートタイムで開発した」とのことです。そしてNutchをその上にポーティングしたところ、みごとにスケールしたと」

関口「その後Hadoopが独立したわけですね」
田澤「はい。そんなわけで大規模データを加工するHadoop、そのReduceプロセスの出力を保存して検索するLucene/Solrは、大規模データを扱うアプリケーションで一緒に使うことが自然です。また私自身FASTという検索エンジンの会社に在籍していたことがあり、OSSの検索エンジンに興味があったため、今回受講しました」

トレーニングコースを受講しての感想

関口「受講してみてどうでしたか」
田澤「コンテンツはきめ細かく充実しています。演習も多く入っていて、いいコースです」

関口「ありがとうございます」
田澤「ただコンテンツが充実している分、講義が駆け足的になっていてそれが残念ですね。私は昔BEAシステムズ(現オラクル)という会社でWebLogic Serverの教育コースの講師をしていましたが、その経験からいっても基礎コースでも2日に分けてもいいのではないかと思います」

関口「わかりました。近々4.0へのメジャーバージョンアップがあるので、参考にさせていただきます。ところで田澤さんは元FAST社員ということでおうかがいしますが、SolrはFASTと比べてどうでしょうか」
田澤「私が在籍していたのは4〜5年前なのであくまでも当時のバージョン(Fast ESP5.1)前提での話になりますが、Solrは基本機能レベルでは互角以上といっていいでしょう。ただ、インデックス作成のスケールアウト性、セキュリティ、管理GUIコンソールはFASTの方が上ですね」

HadoopとSolrの今後について

関口「HadoopとSolrは今後どのように絡んで使われていくことになりそうでしょうか」
田澤「やはりHadoopは特にテレコム業界でBI(Business Intelligence)やBA(Business Analysis)のためのデータ加工・分析で今後も使われていくでしょう。Solrとは広告業界等でのレコメンデーションやSentiment Analysisをアプリケーションで行う際に、やはりHadoopが使われると思います。いずれにしろ今後もデータは増える一方なので、HadoopとLucene/Solrはいろいろな分野で組み合わせて使われるはずですし、ユーザーの皆様から面白い活用事例が聞けることを楽しみにしています」
関口「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」

トレーニングコース

ロンウイットのトレーニングは、Lucene/Solrの経験豊富なコミッターの
監修のもと開発されたハンズオン(実習)形式のコースです。

セミナー

ロンウイットのApache Software Foundationコミッターが、情報検索の基礎、自然言語処理、そして、ユーザにとっての効果についてご説明させていただきます。