INFORMATION
テクノロジ

Spark Summit 2014 に参加しました

著者：関口宏司

6/30から7/1の2日間でサンフランシスコで開催されたSpark Summit 2014に参加しました。Spark初心者の私は明日開催されるトレーニングも受講予定ですが、この2日間の簡単なレポートをしたいと思います。明日のトレーニングで何か書けることがあれば、追加で書くかもしれません。

Spark Summit 2014 の会場となった WESTIN ST FRANCIS (ウェスティン・セント・フランシス)。サンフランシスコ名物のケーブルカーが通るPowell St.沿いの格調高いホテル

Spark Summit 2014

Apache Spark とは？

Apache Spark は大規模データの分散処理をオンメモリで実行するフレームワークで、処理（途中）結果を都度HDDに書き込むバッチ＆高信頼処理に向くApache Hadoopに比べて低レイテンシのアプリケーションを実現することができるOSSプロダクトです。UC BerkeleyのAMPLabで開発され、5月にリリースされた1.0.0が最新バージョンです。

前回のSpark Summit 2013では450名の参加者でしたが、今回は1000名以上の参加者という発表があり、ざっと見積もった座席数（約50×20）がほぼぎっしり埋まるほどの盛況でした。

会場の様子

参加のきっかけ

弊社は「Apache Mahout ではじめる機械学習」というトレーニングコースを毎月開催しています。Mahout は Hadoop 上で動作する機械学習プログラムですが、先日Mahout開発チームは「さよならMapReduce」というニュース記事をトップページで発表し、新規のMR実装を受け付けないことにしました。

さよならMapReduce、その後
https://twitter.com/kojisays/status/459852397603323904

その代わりにSparkを指向していくことも同時に発表され、一気にSparkに注目することとなりました。

各講演・発表について

最初のうちこそノートPCや携帯カメラを忙しく取り出してはメモを取っていましたが、そもそもSpark初心者で出発前に少しは触ってどんなものか多少なりともわかってから参加したかったのですが忙しくて何も準備ができないままにサンフランシスコに来てしまった私は、リアルタイムにカメラとテキストのメモを取っている人を発見し、とてもかなわないと悟ってからはそれもやめてしまいました。講演の様子はこちらが雰囲気をつかめます。

@yumano さんのツイート
https://twitter.com/yumano

Sparkが急速に発展して盛り上がっている理由は短くまとめると「Sparkの高速性がインタラクティブな処理を推進し、そのインタラクティブ性は開発自体を容易にしている。加えて現存の多くの環境の上で動作する」というところに尽きる、という感想を持ちました。

また時節柄、ワールドカップを題材にしたデモが目立ちました。典型的なのは、Twitter上でのワールドカップ関連のつぶやきをリアルタイムに集計してビジュアルに見せる、というものです。今まさに生成されている生情報をSpark Streamingを使って処理するところを見せることで、Sparkのリアルタイム処理性能を際立たせる狙いがあるように思えました。

その他印象に残っている発表は、神経細胞の活動をリアルタイム処理するのに時系列データをSpark Streamingを使って解析した、脳の働きをコンピュータを使って解析する神経科学者のFreeman氏のプレゼンです。

A platform for large-scale neuroscience
Jeremy Freeman (HHMI Janelia Farm Research Campus)
http://spark-summit.org/2014/talk/A-platform-for-large-scale-neuroscience

また日本からはNTTデータの土橋さんが発表を行いました。アナウンサーのような耳に心地よい英語の発音がこちらも印象的でした。

Spark on large Hadoop cluster and evaluation from the view point of enterprise Hadoop user and developer
Masaru Dobashi (NTT Data Corporation)
http://spark-summit.org/2014/talk/spark-on-large-hadoop-cluster-and-evaluation-from-the-view-point-of-enterprise-hadoop-user-and-developer

次週7月8日(火)に開催される Hadoop Conference Japan 2014 ではより内容を充実させた発表をされるということでしたので、興味のある方はぜひご参加ください。

Hadoop Conference Japan 2014
https://www.eventbrite.com/e/hadoop-conference-japan-2014-tickets-12016613013

個人的な関心事としては「Sparkによる電子入札のための分散強化学習」だったのですが、これまた強化学習初心者＋Spark初心者の私はあまり理解できませんでした。

Distributed Reinforcement Learning for Electricity Market Bidding with Spark
Dr. Vijay Srinivas Agneeswaran, Dr. Vishnuteja Nanduri (Impetus)
http://spark-summit.org/2014/talk/distributed-reinforcement-learning-for-electricity-market-bidding-with-spark

トレーニングを初日に行ってほしかったところですが、明日のトレーニングにかけたいと思います。すべての発表は前回がそうだったように、今回もYoutubeなどで公開されると思いますから、興味のある方はあとでご覧ください。

最後に、レセプションなどで何人かの人と話す機会がありましたので、思い出せる範囲で以下に紹介します（名前と仕事内容は不一致の可能性があります）。

壁に貼り出された求人広告。ソフトウェア技術者とデータサイエンティストの需要が高いことがうかがえる

Lanny氏

「仕事は何ですか」という問いに “I’m a data scientist”。「俺はデータサイエンティストだ」と自称する人に初めて会いました（その後何人ものデータサイエンティストに会うことになるとはこのときの私は知るよしもありませんでした）。

今年の頭にPh.Dを卒業したLanny氏は大学卒業後、いったん就職し、数学の重要性に目覚めて大学院に入り直したということでした。「卒業まで非常に時間がかかった」というLanny氏は、修士ながら社会人学生として今年の春に卒業した同じような境遇の私と話が合いました。

はじめました〜JAIST入学とTwitter
http://soleami.com/blog_ja/はじめました〜jaist入学とtwitter.html

ユタ州からこのサンフランシスコに来たLanny氏はホームセキュリティ会社に勤めています。入社3ヶ月程度と間もないのですが、「データサイエンティストがホームセキュリティ会社をどのように見つけたのか」疑問に思って聞いたところ「グーグルがNestというホームオートメーションの会社を買収したことなどからホームオートメーションやホームセキュリティの会社にデータサイエンティストは需要があるはず、と考えて会社に売り込んだ。（データサイエンティストそのものを募集していたわけではなかったが）会社のニーズと保有技術が合致したことと自分の熱意が通じて採用された」ということでした。

グーグル傘下のNest、ホームセキュリティカメラのDropcamを買収へ
http://japan.cnet.com/news/business/35049745/

今では3人のデータサイエンティストチームのリーダーとなっているということです。センサーから得られるデータは教師なし学習しなければならないので大変だとしきりとこぼしていました。音声の命令で動作させるロボットなども開発したことがあるということだったので、「音声認識では隠れマルコフモデル（言外にHMMは教師ありだろうという意味を込めて）を使っているのですか」という問いにも「まあそうなんだけど、本当は教師なしだけでやりたいんだ」といった具合です。

こちらからの情報としては、以下のような内容を話しました（以下簡単に箇条書き）。

弊社は「Apache Mahout ではじめる機械学習」というトレーニングコースを今年に始めた。2日間のコースで、初日は教師あり学習、2日目は教師なし学習や機械学習の評価、そして検索の会社なのでPageRankやNLP（自然言語処理）の話も盛り込んでいる。
関口「強化学習がランキング改善に使えると思っているのだがどう思うか」。Lanny氏「使えると思う」
検索の現場では、まず再現率を100％にし、ついで精度を高めるようなアプローチを取っている。どちらの改善にもNLPを応用している。（この話に興味がある方は、弊社の無料セミナーにご参加ください）
うちは系列ラベリングにHMMではなくCRFを使おうとしている。

次はDeep Learningだぜと言い残し、Lanny氏は去って行きました。

HAITO氏

上海のゲーム会社に勤める中国人のHAITO氏はSpark 0.8のころからのSpark使いで2年の利用経験を持っています。主にSpark StreamingとSpark SQLを使っているということで、使いどころも少し詳しく話してくれましたが、私の知識不足で今ではその内容を忘れてしまいました。

Sparkに出会う前はHiveとPigを使っていたそうです。Hiveは信頼性が高いがスピードの点でSparkに移ったとのことでした。信頼性の担保はメッセージキューを組み合わせて実現しているということでした。

HAITO氏の会社が開発したiPhoneアプリも見せてもらいました。英語発音訂正・矯正の機能を持つアプリで、表示された英文を読むと、単語単位でうまく発音できたかどうか、色を変えて教えてくれるものです。私はやはり機械学習の部分に興味があるので、「音声認識の部分はをどうやってるの」と聞いたところ、「自分の役割ではないので全く知らない」ということでした。

FAN氏

eBay勤務のサンフランシスコに2年ほど住んでいるこれまたデータサイエンティスト。R使いでSparkへの興味はSpark Rとのことです。統計モデリング、データマイニング、クラスター解析、ロジスティック回帰、などなど普段から確率統計と数学に向き合っている、ということでした。

Spark初心者の私は明日のトレーニングコースにかけたいと思います。風呂に入ってもう寝ます。

INFORMATION

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

セマンティックサーチ
人間が理解するように検索エンジンがテキストや画像を理解して検索できます。
クローラー
検索対象文書を収集するWebクローラーが使えます。
簡単操作のUIと豊富なライブラリー
検索や辞書UIに加え、定義済み専門用語辞書／類義語辞書やプラグインがあります。
ローコードで低コスト導入
検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験！

INFORMATIONテクノロジ