INFORMATION
サービス

[インタビュー] Apache Mahout & Spark ではじめる機械学習の受講者（財）九州最先端科学技術研究所吉松様

Apache Mahout & Spark ではじめる機械学習トレーニングコースを受講されました、公益財団法人九州先端科学技術研究所（ISIT）オープンイノベーション・ラボのイノベーション・アーキテクト吉松さんに受講後インタビューに応じて頂きましたのでご紹介します。

吉松さんについて

ロンウイット関口：「今回はプライベート開催研修で福岡に呼んでいただき、ありがとうございました。（吉松さんの名刺を見て）吉松さんは博士号をお持ちなのですね。」
ISIT吉松：「はい、大学を卒業後、企業のエンジニアを経て、福岡県産業・科学技術振興財団に研究員として入社したときに社会人博士課程に進み、システムLSIの自動最適化の研究を行いました。」
関口：「システムLSIの自動最適化というのはもう少しかみ砕いて説明いただくと、どういうものでしょうか。」
吉松：「システムLSIが使われ方に応じて自分で自分の機能や性能を最適化できる、というものです。たとえば、マイクロプロセッサでよく使われる命令列があるとすると、マイクロプロセッサ自身がその部分を自動的に並列実行化したり省電力化したりするのと似ています。」
関口：「なるほど、よくわかりました。その後 ISIT に移られたのですね。」
吉松：「はい、2007年から ISIT の研究員となりました。」

現在の業務内容

関口：「ISIT での吉松さんの現在の業務内容について教えてください。」
吉松：「IT 活用などにより九州地域の産業の振興に資するための研究開発、企業との交流、コンサルティング、人材育成を行うのが ISIT です。その中で企業が新しい製品やサービスを開発するためのお手伝いをするのが私の役割です。具体的な活用技術としては、データのオープン化（オープンデータ）[*1]、IoT[*2]、AI、モデルベース開発[*3]（シミュレーションを使って設計を行う）、となります。」

[*1] ISIT のオープンデータへの取り組みは、こちらをご覧ください。
[*2] 福岡市の IoT に関する取り組みは、福岡市 IoT コンソーシアムをご覧ください。
[*3] モデルベース開発のワーキンググループはこちらをご覧ください。

関口：「オープンデータの活動については、以前、ISIT の坂本さんにインタビューさせていただきました。オープンデータの公開用プラットフォームに CKANという OSS を使っていて、その中でデータの検索機能に Solr が使われているということで、”Solr 基礎”トレーニングコースを受講していただきました。その後オープンデータの活動状況はいかがでしょうか。」
吉松：「徐々にではありますが、オープンデータが増えてきています。そこで、全ての自治体のオープンデータを集めたワンストップポータルである” オープンデータモニター(BODIK ODM) ”を開設しました。BODIK ODMは自治体のオープンデータポータルからハーベスティングによってすべてのオープンデータをBODIKオープンデータカタログサイト(BODIK ODCS)に集めます。データだけでなく、メタデータも合わせて集めているため、自治体のオープンデータに関する取り組み状況を把握することができるようになります。たとえばこちらを見ていただくと、リソース数の多い自治体ランキングがわかります。」
関口：「これを見ると大阪市が他自治体を圧倒しているのがよくわかりますね（2018年3月当時）。」

受講の感想と今後の活動

吉松：「BODIK ODMは、全ての自治体のオープンデータを集めたワンストップポータルですが、それぞれの自治体は独自の基準でデータの分類やタグ付けを行っています。これをそのまま CKAN に入れても分類やタグが統一されていないので、自治体横断的に検索することができません。また、前述のモニタリングにしても、もし分類のカテゴリが統一できていれば、”どのカテゴリがよく閲覧されているか”といった情報を提供できるようになります。このような情報は、自治体の職員がオープンデータ公開の優先順位を決めるのに役立つと考えられます。しかしながら、現在は十分に統一化ができていません。」
関口：「どのように分類やタグ付けが自動化できそうでしょうか。」
吉松：「海外事例などを調べて、トピック推定を用いて自動分類ができないか、研究開発を進めているところです。」
関口：「具体的に、どのようなツールを使ってオープンデータからトピック推定を行っているのでしょうか。」
吉松：「まず、CKANのAPIを使ってデータ収集します。そして収集したデータのクレンジングを行います。このとき、データセットのどの部分を使ってトピック推定をするか、などを考慮します。mecab-python で分かち書きを行い、LDAの計算はgensimを使っています。」
関口：「弊社のお客様でもトピック推定を使っている、あるいは使ってみたい、という話はよく聞きます。残念ながらトレーニングコースではトピック推定は取り上げていないのですが、研修を受講してみていかがでしたでしょうか。」
吉松：「非常に幅広い機械学習のアルゴリズムについて短時間で学ぶことができました。これだけの内容を2日間でどうやったら教えられるのかと思っていたのですが、実際のユースケースから入ってアルゴリズムの解説がされるので、詰め込みすぎにならず、要点だけを効率よく学べたと思います。」
関口：「ありがとうございます。今回一緒に受講された坂本さん（ISIT イノベーション推進室）からも、”機械学習の書籍が読み進められそうだ”との感想をいただきました。それでは最後に、今後の活動についてお聞かせください。」
吉松：「全国の自治体のオープンデータは徐々に収集できてはいますが、まだまだ増やしていきたいと考えています。データ量が増えることでトピック推定の精度も向上し、カバーするオープンデータの量が増えることと相まってユーザの利便性が向上すると考えています。今後はビッグデータを使った機械学習やAIが、企業の中でますます重要性を増していくので、BODIKを広く使ってもらえるよう活動していきたいと思っています。」
関口：「BODIKがますます発展していくようお祈りします。本日はトレーニング受講後でお疲れのところ、お話を聞かせていただき大変ありがとうございました。」

左からISIT坂本さん、吉松さん、ロンウイット関口

INFORMATION

KandaSearch

KandaSearch はクラウド型企業向け検索エンジンサービスです。
オープンAPIでカスタマイズが自由にできます。

セマンティックサーチ
人間が理解するように検索エンジンがテキストや画像を理解して検索できます。
クローラー
検索対象文書を収集するWebクローラーが使えます。
簡単操作のUIと豊富なライブラリー
検索や辞書UIに加え、定義済み専門用語辞書／類義語辞書やプラグインがあります。
ローコードで低コスト導入
検索UIで使い勝手を調整した後、Webアプリケーションを自動生成できます。

セミナー

企業が検索エンジンを選定する際のポイントから、
実際の導入デモをお客様ご自身でご体験！

INFORMATIONサービス

[インタビュー] Apache Mahout & Spark ではじめる機械学習の受講者 （財）九州最先端科学技術研究所 吉松様