<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>株式会社ロンウイット</title>
	<atom:link href="http://www.rondhuit.com/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rondhuit.com</link>
	<description>ロンウイットはオープンソースのLucene/Solrを使った高速・高性能・大規模・企業向け検索エンジンをお客様にご提供する会社です.</description>
	<lastBuildDate>Tue, 14 Feb 2012 15:23:55 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.2</generator>
		<item>
		<title>soleami （ソレミ）の使い方〜Solrの立ち上げからログの可視化まで〜</title>
		<link>http://www.rondhuit.com/soleami-howto.html</link>
		<comments>http://www.rondhuit.com/soleami-howto.html#comments</comments>
		<pubDate>Tue, 14 Feb 2012 07:31:23 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[テクノロジ]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1255</guid>
		<description><![CDATA[Apache Solrが出力するクエリログを可視化するツールsoleamiの使い方をご紹介します。本稿ではもっとも一般的な使い方を想定し、SolrをTomcat上にデプロイして使う場合について解説します。 おおまかな手順 &#8230;]]></description>
			<content:encoded><![CDATA[<p>Apache Solrが出力するクエリログを可視化するツールsoleamiの使い方をご紹介します。本稿ではもっとも一般的な使い方を想定し、SolrをTomcat上にデプロイして使う場合について解説します。</p>
<p>おおまかな手順は、以下の通りです（すでにTomcat上で稼働しているSolrをお持ちの方や弊社サブスクリプション・パッケージのお客様は、手順４．からお読みください）。</p>

<ol>
	<li><a href="#download_tom">Tomcatのダウンロード</a></li>
	<li><a href="#download_solr">Solrのダウンロード</a></li>
	<li><a href="#encoding">文字化け対策</a></li>
	<li><a href="#config">solrconfig.xmlの編集</a></li>
	<li><a href="#deploy">SolrのTomcatへのデプロイと起動</a></li>
	<li><a href="#search">検索を実行</a></li>
	<li><a href="#visualize">soleamiでログを可視化</a></li>
</ol>

<p>なお、Linux/Macの環境を前提に話を進めます。Windowsの場合はcygwinなどを使いながら、置き換えて読み進めてください。</p>
<p>またユーザsolrがログインディレクトリ/home/solrの下にworkというディレクトリを作成し、その下に環境を作成して作業するものとします。そこでまず、workというディレクトリを作成しておきます。</p>

<pre>
$ pwd
/home/solr
$ mkdir work
$ cd work
$ pwd
/home/solr/work
</pre>



<p>なお、JavaとAntがあらかじめインストールされていることが必要です。</p>

<a name="download_tom"></a>
<h3>Tomcatのダウンロード</h3>
<p>まず、Tomcat 6.0.35をダウンロードします。</p>

<pre>
# workディレクトリにTomcat 6.0.35をダウンロード
$ pwd
/home/solr/work
$ wget http://ftp.meisei-u.ac.jp/mirror/apache/dist/tomcat/tomcat-6/v6.0.35/bin/apache-tomcat-6.0.35.tar.gz
</pre>



<p>そしてダウンロードしたファイルを解凍します。</p>

<pre>
$ wget tar xvzf apache-tomcat-6.0.35.tar.gz
x apache-tomcat-6.0.35/bin/catalina.sh
x apache-tomcat-6.0.35/bin/digest.sh
x apache-tomcat-6.0.35/bin/setclasspath.sh
x apache-tomcat-6.0.35/bin/shutdown.sh
x apache-tomcat-6.0.35/bin/startup.sh
x apache-tomcat-6.0.35/bin/tool-wrapper.sh
x apache-tomcat-6.0.35/bin/version.sh
     :
</pre>



<p>Tomcatに関しての準備は以上です。</p>

<a name="download_solr"></a>
<h3>Solrのダウンロード</h3>

<p>次にSolrをダウンロードします。ここでは本日時点の最新バージョンである3.5.0をダウンロードします。注意していただきたいのは、後述するように「文字化け対策」をする必要があるので、Solrのバイナリ版ではなく、ソース版をダウンロードする必要があることです。</p>

<pre>
# workディレクトリにソース版Solr 3.5.0をダウンロード
$ pwd
/home/solr/work
$ wget http://ftp.jaist.ac.jp/pub/apache//lucene/solr/3.5.0/apache-solr-3.5.0-src.tgz
</pre>



<p>そしてダウンロードしたファイルを解凍します。</p>

<pre>
$ tar xvzf apache-solr-3.5.0-src.tgz 
x apache-solr-3.5.0/dev-tools/
x apache-solr-3.5.0/dev-tools/eclipse/
x apache-solr-3.5.0/dev-tools/idea/
x apache-solr-3.5.0/dev-tools/idea/.idea/
x apache-solr-3.5.0/dev-tools/idea/.idea/copyright/
x apache-solr-3.5.0/dev-tools/idea/.idea/libraries/
x apache-solr-3.5.0/dev-tools/idea/lucene/
x apache-solr-3.5.0/dev-tools/idea/lucene/contrib/
     :
</pre>



<p>以上でSolrの準備自体は終わりですが、次に「文字化け対策」の作業が必要です。</p>

<a name="encoding"></a>
<h3>文字化け対策</h3>
<p>ダウンロードしたままのTomcatにSolrをデプロイすると、確実に文字化けが発生してしまいます。そこでTomcatとSolrに対して以下の作業が必要になります。</p>

<h4>Tomcatのserver.xmlの編集</h4>
<p>Tomcatのserver.xmlをエディタで開きます。</p>

<pre>
$ vi apache-tomcat-6.0.35/conf/server.xml
</pre>



<p>そして次のConnector要素の部分を見つけ、useBodyEncodingForURI=&#8221;true&#8221;を追記します。</p>

<pre>
    &lt;Connector port=&quot;8080&quot; protocol=&quot;HTTP/1.1&quot;
               connectionTimeout=&quot;20000&quot;
               redirectPort=&quot;8443&quot; useBodyEncodingForURI=&quot;true&quot;/&gt;
</pre>



<p>できたら、server.xmlファイルを保存してエディタを終了します。</p>

<h4>Tomcat提供のサーブレットフィルターをSolrにコピー</h4>
<p>次に、TomcatのexamplesにあるサーブレットフィルターをSolrにコピーします。</p>

<pre>
$ cp -R apache-tomcat-6.0.35/webapps/examples/WEB-INF/classes/filters apache-solr-3.5.0/solr/core/src/java
</pre>



<h4>Solrのweb.xmlを編集</h4>
<p>次にSolrのweb.xmlを編集します。適当なエディタでweb.xmlを開いてください。</p>

<pre>
$ vi apache-solr-3.5.0/solr/webapp/web/WEB-INF/web.xml
</pre>



<p>そしてweb.xmlファイルの中の既存のfilter定義の前に次のようなSetCharacterEncodingFilterを使用する旨の記述を挿入します。</p>

<pre>
  &lt;filter&gt;
    &lt;filter-name&gt;SetCharacterEncoding&lt;/filter-name&gt;
    &lt;filter-class&gt;filters.SetCharacterEncodingFilter&lt;/filter-class&gt;
    &lt;init-param&gt;
      &lt;param-name&gt;encoding&lt;/param-name&gt;
      &lt;param-value&gt;UTF-8&lt;/param-value&gt;
    &lt;/init-param&gt;
  &lt;/filter&gt;
  &lt;!-- 以下は既存の定義です --&gt;
  &lt;filter&gt;
    &lt;filter-name&gt;SolrRequestFilter&lt;/filter-name&gt;
     :
</pre>



<p>次に同じファイルのもう少し下を見ていくと、filter-mappingを定義している箇所があります。同じくその前に次のようにSetCharacterEncodingの定義を挿入します。</p>

<pre>
  &lt;filter-mapping&gt;
    &lt;filter-name&gt;SetCharacterEncoding&lt;/filter-name&gt;
    &lt;url-pattern&gt;/*&lt;/url-pattern&gt;
  &lt;/filter-mapping&gt;
  &lt;!-- 以下は既存の定義です --&gt;
  &lt;filter-mapping&gt;
    &lt;filter-name&gt;SolrRequestFilter&lt;/filter-name&gt;
      :
</pre>



<h4>Solrのビルド</h4>
<p>以上でビルドの準備が整いましたので、antを使ってSolrをビルドします。</p>

<pre>
$ cd apache-solr-3.5.0/solr
$ pwd
/home/solr/work/apache-solr-3.5.0/solr
$ ant -Dversion=3.5.0 example
</pre>



<a name="config"></a>
<h3>solrconfig.xmlの編集</h3>
<p>次に、solrconfig.xmlから、（ログの可視化には）不要な部分を取り除きます。この手順は必須ではありませんが、デフォルトの状態だとSolr起動時におかしなクエリが飛んでしまうので、可視化した際にゴミが目立ってしまいます。そこで、次のように適当なエディタでsolrconfig.xmlファイルを開きます。</p>

<pre>
$ pwd
/home/solr/work/apache-solr-3.5.0/solr
$ vi example/solr/conf/solrconfig.xml
</pre>



<p>そして以下のようなfirstSearcherの箇所を見つけ、listenerタグごと削除するか、以下のようにコメントアウトしてください。</p>

<pre>
    &lt;listener event=&quot;firstSearcher&quot; class=&quot;solr.QuerySenderListener&quot;&gt;
      &lt;arr name=&quot;queries&quot;&gt;
&lt;!-- ここの部分をコメントアウトします。
        &lt;lst&gt;                                                                                                 
          &lt;str name=&quot;q&quot;&gt;static firstSearcher warming in solrconfig.xml&lt;/str&gt;                                  
        &lt;/lst&gt;                                                                                                
--&gt;
      &lt;/arr&gt;
    &lt;/listener&gt;
</pre>



<a name="deploy"></a>
<h3>SolrのTomcatへのデプロイと起動</h3>
<p>次に、SolrのwarファイルをTomcatにデプロイします。前述の手順でSolrをビルドすると、Solrのdistというディレクトリの下にwarファイルが作られています。このファイルはapache-solr-3.5.0.warという名前になっているので、solr.warと名前を変えて、Tomcatのwebappsディレクトリの下にコピーしてデプロイします。</p>

<pre>
$ pwd
/home/solr/work
$ cp apache-solr-3.5.0/solr/dist/apache-solr-3.5.0.war apache-tomcat-6.0.35/webapps/solr.war
</pre>



<p>そしてTomcatを起動します。その際、環境変数CATALINA_OPTSにSolrホームディレクトリ（solrconfig.xmlファイルが配置されているディレクトリの親ディレクトリ）を指し示すように設定が必要です。また環境によっては、システムプロパティfile.encodingの設定も必要になりますので、環境に合わせてTomcatを起動してください。</p>

<pre>
$ export CATALINA_OPTS="-Dsolr.solr.home=/home/solr/work/apache-solr-3.5.0/solr/example/solr -Dfile.encoding=UTF-8"; ./apache-tomcat-6.0.35/bin/startup.sh
</pre>



<a name="search"></a>
<h3>検索を実行</h3>
<p>ではブラウザからTomcatにアクセスして管理画面を立ち上げてみましょう。ブラウザから <a href="http://localhost:8080/solr/admin/">http://localhost:8080/solr/admin/</a> にアクセスします。</p>

<div id="attachment_1265" class="wp-caption alignnone" style="width: 490px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/3eacf9cfb739870f245bda1cca0ef6bb-480x282.png" alt="soleami-howto-solr-admin" title="soleami-howto-solr-admin" width="480" height="282" class="size-medium wp-image-1265" /><p class="wp-caption-text">Solrの管理画面</p></div>

<p>ここでは、街中検索系のサイトを運営していると仮定して、管理画面の入力エリアに「渋谷 ラーメン」と入力してSearchボタンをクリックします。なお、「渋谷」と「ラーメン」の間にはスペースが入っています。いうまでもなく、渋谷でラーメン屋さんを探しているようなイメージです。</p>

<p>すると、XMLで検索結果が戻ってきますが、データも入れていないので当然0件の検索結果になります。1回だけのクエリではつまらないのでもう一つ、「渋谷 郵便局」という検索もやっておきましょう。ブラウザの戻るボタンで管理画面に戻り、入力エリアに「渋谷 郵便局」と入力してSearchボタンをクリックします。</p>

<p>この状態で、Tomcatのログを確認しておきましょう。catalina.outの最後の方に今検索した「渋谷 ラーメン」や「渋谷 郵便局」という行が記録されているはずです。</p>

<pre>
$ tail apache-tomcat-6.0.35/logs/catalina.out
2012/02/14 14:02:46 org.apache.solr.core.SolrCore execute
情報: [] webapp=/solr path=/select/ params={indent=on&#038;start=0&#038;q=渋谷+ラーメン&#038;version=2.2&#038;rows=10} hits=0 status=0 QTime=37 
2012/02/14 14:02:58 org.apache.solr.core.SolrCore execute
情報: [] webapp=/solr path=/select/ params={indent=on&#038;start=0&#038;q=渋谷+郵便局&#038;version=2.2&#038;rows=10} hits=0 status=0 QTime=1 
</pre>



<p>このとき、文字化けしていたり、文字化けしていなくてもUTF-8で記録されていない場合は、あとで可視化できなくなってしまいますので、その場合はこれまでの手順を見直してください。</p>

<a name="visualize"></a>
<h3>soleamiでログを可視化</h3>
<p>さていよいよcatalina.outのクエリログを可視化してみましょう。もしまだsoleamiにユーザ登録していなかったら、ここで <a href="https://soleami.com/p/signup?locale=ja">ユーザ登録</a> から登録しておいてください。</p>

<p>ではsoleamiのメニューのアップロードをクリックします。ここで未ログインの場合はログインを促されますので、登録したユーザ名（メールアドレス）とパスワードを使ってログインします。</p>

<p>すると下のようなログファイルをアップロードする画面が表示されます。</p>

<div id="attachment_1268" class="wp-caption alignnone" style="width: 490px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/de28a5800def15615d68e62aa6d17b22-480x395.png" alt="soleami-howto-upload" title="soleami-howto-upload" width="480" height="395" class="size-medium wp-image-1268" /><p class="wp-caption-text">soleamiのファイルアップロード画面</p></div>

<p>画面に指示のあるとおり、ログファイルはZIP圧縮してアップロードしてください。その際に、機密保持のためにシステムから指定されたパスワードで暗号化する必要があります（実は暗号化しなくても動作しますが、後述するようにアップロード中はSSL通信しないので、暗号化するようにしてください）。</p>

<pre>
$ cd apache-tomcat-6.0.35/logs
$ zip -e catalina.out.zip catalina.out 
Enter password: fRciL_yU
Verify password: fRciL_yU
  adding: catalina.out (deflated 92%)
</pre>



<p>ここではZIP圧縮するファイルはcatalina.outひとつだけですが、ディレクトリに複数のクエリログファイルがある場合、そのディレクトリごとZIP圧縮しても問題ありません。また、各ログファイルは.logという拡張子を持っていなくても大丈夫です。ただし、まとめてZIP圧縮する場合は、余計な（ゴミ）ファイルは含まれないようにしてください。</p><p>なお、ZIP圧縮後のファイルサイズは10MBを超えてはいけません（10MBを超える場合は、複数回に分けてアップロードしてください。最大過去12ヶ月分のログが可視化できます）。</p>

<p>ZIP圧縮したらファイルアップロードの画面でZIPファイルを選択し、[アップロード] ボタンをクリックします。すると、お使いのブラウザによっては、次のような「セキュリティ警告」が表示されます。</p>

<div id="attachment_1276" class="wp-caption alignnone" style="width: 485px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/ccd95cb5223e11443c3006219ef0615a.png" alt="soleami-howto-security-warning" title="soleami-howto-security-warning" width="475" height="188" class="size-full wp-image-1276" /><p class="wp-caption-text">ファイルアップロードしようとすると、セキュリティ警告が表示される</p></div>

<p>これは、今表示されている「ファイルアップロード画面」自体がSSLで送信されているのに対し、アップロードしようとしているZIPファイルがSSLを使っていないためです。しかし、ZIPファイルは暗号化されているので機密は保たれていますから、[続ける] をクリックしてアップロードします。
</p>

<p>アップロード終了後、数分〜数十分待つと次のようなメールがsoleamiから届きます。</p>

<pre>
おめでとうございます！

アップロードしていただきましたログファイルの解析が終了しました。
下記リンクをクリックし、可視化を体験してください！

http://soleami.com/p/visualize?locale=ja

アップロード時刻（日本時間）: 2012/02/14 14:44:47
データベースを初期化する: No
</pre>



<p>ではメール中にあるリンクをクリックして、「可視化」を開始してみましょう。</p>

<p>「可視化」の画面は最初は[トップ10] タブが選択された状態になっています。今回は「渋谷 ラーメン」および「渋谷 郵便局」という検索を行いましたので、下の画面のように今月の「トップ10」が表示されます（なお、先月以前の部分は「no log data&#8230;」と表示されます）。</p>

<div id="attachment_1282" class="wp-caption alignnone" style="width: 446px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/d585ccaf21bc0544367002aaf7a3916c.png" alt="soleami-howto-top10" title="soleami-howto-top10" width="436" height="329" class="size-full wp-image-1282" /><p class="wp-caption-text">トップ10チャートのサンプル</p></div>

<p>次に[トレンド1000] のタブを選択してみましょう。すると、次のように検索キーワードのリストが表示されます。</p>

<div id="attachment_1283" class="wp-caption alignnone" style="width: 275px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/d71c9c83be2d3fc1634b8a8142861773.png" alt="soleami-howto-trend1000-list" title="soleami-howto-trend1000-list" width="265" height="178" class="size-full wp-image-1283" /><p class="wp-caption-text">トレンド1000の検索キーワードリストの表示</p></div>

<p>ここで、「渋谷(2)」をクリックします。すると、次のような折れ線グラフと棒グラフが表示されます。</p>

<div id="attachment_1284" class="wp-caption alignnone" style="width: 490px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/38438c812e8da819471bdae85177533b-480x310.png" alt="soleami-howto-trend1000-chart" title="soleami-howto-trend1000-chart" width="480" height="310" class="size-medium wp-image-1284" /><p class="wp-caption-text">トレンド1000で「渋谷」を選択したところ</p></div>

<p>ここで折れ線グラフの方は「渋谷」という検索キーワードの過去12ヶ月間の検索回数の推移を表しています。そして棒グラフの方は、主キーワードである「渋谷」と一緒に検索された副キーワードの過去12ヶ月間の累積回数を表しています。これらのチャートから「渋谷」で「ラーメン」屋や「郵便局」を探している人がいるんだなあ、ということが読み取れます。</p>

<p>次に[0件ヒット] のタブを選択してみましょう。すると先ほどと同じようにクエリのリストが表示されます。違うのは、先ほどは検索キーワードの単位にリスト表示されていたのが、ここではクエリ文字列単位になっていることです。「渋谷 ラーメン(1)」「渋谷 郵便局(1)」となっていますので、「渋谷 ラーメン(1)」をクリックしてみます。すると次の画面のようなチャートが表示され、「0件ヒット」を起こした「渋谷 ラーメン」というクエリの過去12ヶ月間の推移がわかります。</p>

<div id="attachment_1287" class="wp-caption alignnone" style="width: 490px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/5870a20af0ad48ab5d9e9ae71d40eda9-480x245.png" alt="soleami-howto-zerohits" title="soleami-howto-zerohits" width="480" height="245" class="size-medium wp-image-1287" /><p class="wp-caption-text">0件ヒットで適当なクエリを選択してチャートを表示したところ</p></div>

<p>「0件ヒット」は検索システムがユーザ（サイト訪問者）のニーズに応えられなかったことを表しています。特にECサイトでは「0件ヒット」の発生は重大視される傾向にあります。「0件ヒット」が起こった場合は、類義語辞書を使っているサイトではその内容を見直したり、コンテンツを検討するなどして発生を少なくすることが、ユーザの満足度向上につながります。</p>

<p>今回のサンプルではたった2回の検索実行を可視化しただけでしたが、Solrの起動から可視化までの流れをつかんでいただけたことと思います。実際にSolrを運用しているログファイルを分析すると、季節による検索キーワードの傾向が読み取れたり、また企業内検索では「社員が今求めているもの」を把握することができます。</p>

<p>Solrとともにsoleamiを上手に活用していただき、貴社の検索システムのコンテンツの充実化や利便性向上にぜひお役立てください！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/soleami-howto.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[プレスリリース] Apache Solrのクエリログ可視化サービス</title>
		<link>http://www.rondhuit.com/%e3%83%97%e3%83%ac%e3%82%b9%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9-apache-solr%e3%81%ae%e3%82%af%e3%82%a8%e3%83%aa%e3%83%ad%e3%82%b0%e5%8f%af%e8%a6%96%e5%8c%96%e3%82%b5%e3%83%bc%e3%83%93%e3%82%b9.html</link>
		<comments>http://www.rondhuit.com/%e3%83%97%e3%83%ac%e3%82%b9%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9-apache-solr%e3%81%ae%e3%82%af%e3%82%a8%e3%83%aa%e3%83%ad%e3%82%b0%e5%8f%af%e8%a6%96%e5%8c%96%e3%82%b5%e3%83%bc%e3%83%93%e3%82%b9.html#comments</comments>
		<pubDate>Mon, 13 Feb 2012 15:00:10 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[プレスリリース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1252</guid>
		<description><![CDATA[株式会社ロンウイット（本社：東京都千代田区、代表取締役社長：関口宏司）はオープンソース・ソフトウェアの検索エンジンApache Solr（アパッチ ソーラー）のクエリログを可視化するサービスsoleami（ソレミ）を開始 &#8230;]]></description>
			<content:encoded><![CDATA[<p>株式会社ロンウイット（本社：東京都千代田区、代表取締役社長：関口宏司）はオープンソース・ソフトウェアの検索エンジンApache Solr（アパッチ ソーラー）のクエリログを可視化するサービスsoleami（ソレミ）を開始しました。利用料金は無料です。</p>

<p>soleami<br/><a href="http://soleami.com/ja" title="soleami | Visualize the needs of your visitors.">http://soleami.com/ja</a>
</p>

<p>Solrはインターネットで公開されているWebサイトのサイト内検索や、非公開のイントラネットの企業内検索など、世界中で広く使われているOSSの検索エンジンです。</p>

<p>Solrは実行した検索リクエストをログファイル（クエリログ）に記録しています。クエリログは「サイト訪問者のニーズのリスト」とも言えるものですが、検索キーワードごとに集計する作業は大変な労力がかかるため、これまで活用されてきていませんでした。</p>

<p>soleamiはこの問題を解決するため、クエリログをアップロードするだけで自動的に集計を行い、Webブラウザでチャートを表示できることを目標に開発されました。Solrの管理者は誰でも無料で、Solrのクエリログをsoleamiにアップロードし、サイト訪問者のニーズを可視化できるようになりました。</p>

<p>soleamiが作成するチャートには次の種類があります（<a href="http://soleami.com/screenshot_ja" title="画面サンプル" target="_blank">画面サンプルはこちら</a>）。
<ul>
	<li>トップ10<br/>毎月のトップ10の人気検索キーワードを集計して表示します。過去12ヶ月間までさかのぼって表示できるので、検索キーワードの季節変動も読み取れます。</li>
	<li>トレンド1000<br/>上位1,000位までの検索キーワードの過去12ヶ月間の傾向が折れ線グラフで表示されます。さらにその検索キーワードと一緒に検索された副キーワードのトップ20が棒グラフで表示されます。</li>
	<li>0件ヒット<br/>「0件ヒット」を起こしたクエリ（検索結果を表示できなかったクエリ）の過去12ヶ月間の検索回数が棒グラフで表示されます。「0件ヒット」の発生はサイト訪問者の検索ニーズに応えられなかったことを示します。0件ヒットを減らすことは、サイト訪問者の満足度を高め、ECサイトではコンバージョン率の向上に寄与します。</li>
</ul>
</p>

<p>soleami開発チームは今後も開発を継続し、クエリログをさまざまな切り口から視覚化できるように機能を向上させていきたいと考えています。</p>

<br/>
<h5>soleamiの名前の由来</h5>
<p>soleamiは“ami du soleil”（太陽の友人）というフランス語からの造語です。solarと一字違いのSolrにはもともと太陽の意味がありました。soleamiをSolrの友達のように常にそばに置いて使ってもらいたいという願いが込められています。
</p>

<br/>
<h5>Apache Solrについて</h5>
<p>オープンソース・ソフトウェアを開発・管理する非営利団体Apache Software Foundationが開発しているOSSの検索エンジンです。SolrはHadoopの創始者であるDoug Cutting氏が開発したApache Luceneをベースにしています。<br/>
<a href="http://lucene.apache.org/solr/" title="Apache Solr" target="_blank">http://lucene.apache.org/solr/</a>
</p>

<br/>
<h5>株式会社ロンウイットについて</h5>
<p>Apache Lucene/Solrを企業・学校等に導入する支援事業を展開しています。Solrの導入時コンサルティングの他、Solrの教育サービスやサポートサービスなども提供しています。代表の関口はApache Lucene/Solrのコミッターも務めています。<br/>
<a href="http://www.rondhuit.com/" title="株式会社ロンウイット" target="_blank">http://www.rondhuit.com/</a>
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/%e3%83%97%e3%83%ac%e3%82%b9%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9-apache-solr%e3%81%ae%e3%82%af%e3%82%a8%e3%83%aa%e3%83%ad%e3%82%b0%e5%8f%af%e8%a6%96%e5%8c%96%e3%82%b5%e3%83%bc%e3%83%93%e3%82%b9.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[インタビュー] Solr 3.5 トレーニングコース受講者 Cloudera 田澤孝之 さん</title>
		<link>http://www.rondhuit.com/%e3%82%a4%e3%83%b3%e3%82%bf%e3%83%93%e3%83%a5%e3%83%bc-cloudera-%e7%94%b0%e6%be%a4%e5%ad%9d%e4%b9%8b-%e3%81%95%e3%82%93.html</link>
		<comments>http://www.rondhuit.com/%e3%82%a4%e3%83%b3%e3%82%bf%e3%83%93%e3%83%a5%e3%83%bc-cloudera-%e7%94%b0%e6%be%a4%e5%ad%9d%e4%b9%8b-%e3%81%95%e3%82%93.html#comments</comments>
		<pubDate>Thu, 09 Feb 2012 14:41:08 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[テクノロジ]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1199</guid>
		<description><![CDATA[Solr 3.5 基礎の定期開催トレーニングコースを受講されました、米Clouderaディレクターの田澤さんに、受講後のインタビューに応じていただきました。 Clouderaについて ロンウイット関口「Clouderaと &#8230;]]></description>
			<content:encoded><![CDATA[Solr 3.5 基礎の定期開催トレーニングコースを受講されました、米Clouderaディレクターの田澤さんに、受講後のインタビューに応じていただきました。

<h4>Clouderaについて</h4>
<strong>ロンウイット関口</strong>「Clouderaという会社について教えてください」<br/>
<strong>Cloudera田澤</strong>「2008年10月に創業したHadoopの専業ベンダーです。CDH（Cloudera&#8217;s Distribution including Apache Hadoop）やCloudera Managerという製品を持っています。もちろんHadoopに関連したコンサルティングやサポート、教育も行っています。Hadoop創始者のDougは2009年前半にJoinしました」<br/><br/>

<div id="attachment_1233" class="wp-caption alignright" style="width: 487px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/d433e4f7fc11b7e9aa88595c369a9a1b.png" alt="Cloudera 田澤孝之 さん" title="Cloudera 田澤孝之 さん" width="477" height="366" class="size-full wp-image-1233" /><p class="wp-caption-text">Cloudera 田澤孝之 さん</p></div>

<strong>関口</strong>「Hadoopのディストリビューターというと他にもあるようですが、Clouderaの特徴はなんでしょうか」<br/>
<strong>田澤</strong>「MapRやHortonworksですね。MapRはAPIはHadoop互換を謳っていますが、足回りをC/C++で再実装していて高性能を武器にしているようです。HortonworksはYahoo!からスピンアウトした人たちが立ち上げた会社で、できてまだ日が浅く、GAになっている製品がありません。Clouderaはコミュニティで開発されたHadoop 1.0（0.20系）を使っており、「オレオレバージョンではない」「すでにYahoo!で数千ノードで稼働している」という実績があるのが特徴です。もっとも、調査会社のForresterによれば、Amazon（Elastic MapReduce）やIBM（InfoSphere）、EMC（Greenplum）がうちも含めた前述の会社よりHadoopのEnterprise市場で影響力のある会社として評価されているようです（笑）」<br/><br/>
<strong>関口</strong>「Clouderaにおいて田澤さんはどのような業務を担当していますか」<br/>
<strong>田澤</strong>「日本でのビジネスの立ち上げやClouderaの普及です」<br/><br/>

<h4>トレーニングコース受講の動機</h4>
<strong>関口</strong>「今回トレーニングコースを受講していただいた動機はなんでしょうか」<br/>
<strong>田澤</strong>「関口さんもご存知の通り、DougはLuceneの創設者でもあり、Hadoopと検索は近しい関係にあります。DougはLuceneを開発した後、Webクローラーを搭載したNutchを開発しました。しかし、Web相手だとなかなかスケールしない。そこにGoogleの論文が発表され、そのアイディアをNutchに適用しようと考えました」<br/><br/>
<strong>関口</strong>「HDFSとMapReduceですね」<br/>
<strong>田澤</strong>「当時はHDFSではなくNDFSと呼んでいました。Dougいわく、「2年間パートタイムで開発した」とのことです。そしてNutchをその上にポーティングしたところ、みごとにスケールしたと」<br/><br/>
<strong>関口</strong>「その後Hadoopが独立したわけですね」<br/>
<strong>田澤</strong>「はい。そんなわけで大規模データを加工するHadoop、そのReduceプロセスの出力を保存して検索するLucene/Solrは、大規模データを扱うアプリケーションで一緒に使うことが自然です。また私自身FASTという検索エンジンの会社に在籍していたことがあり、OSSの検索エンジンに興味があったため、今回受講しました」<br/><br/>

<h4>トレーニングコースを受講しての感想</h4>
<strong>関口</strong>「受講してみてどうでしたか」<br/>
<strong>田澤</strong>「コンテンツはきめ細かく充実しています。演習も多く入っていて、いいコースです」<br/><br/>
<strong>関口</strong>「ありがとうございます」<br/>
<strong>田澤</strong>「ただコンテンツが充実している分、講義が駆け足的になっていてそれが残念ですね。私は昔BEAシステムズ（現オラクル）という会社でWebLogic Serverの教育コースの講師をしていましたが、その経験からいっても基礎コースでも2日に分けてもいいのではないかと思います」<br/><br/>
<strong>関口</strong>「わかりました。近々4.0へのメジャーバージョンアップがあるので、参考にさせていただきます。ところで田澤さんは元FAST社員ということでおうかがいしますが、SolrはFASTと比べてどうでしょうか」<br/>
<strong>田澤</strong>「私が在籍していたのは４〜５年前なのであくまでも当時のバージョン（Fast ESP5.1）前提での話になりますが、Solrは基本機能レベルでは互角以上といっていいでしょう。ただ、インデックス作成のスケールアウト性、セキュリティ、管理GUIコンソールはFASTの方が上ですね」<br/><br/>

<h4>HadoopとSolrの今後について</h4>
<strong>関口</strong>「HadoopとSolrは今後どのように絡んで使われていくことになりそうでしょうか」<br/>
<strong>田澤</strong>「やはりHadoopは特にテレコム業界でBI（Business Intelligence）やBA（Business Analysis）のためのデータ加工・分析で今後も使われていくでしょう。Solrとは広告業界等でのレコメンデーションやSentiment Analysisをアプリケーションで行う際に、やはりHadoopが使われると思います。いずれにしろ今後もデータは増える一方なので、HadoopとLucene/Solrはいろいろな分野で組み合わせて使われるはずですし、ユーザーの皆様から面白い活用事例が聞けることを楽しみにしています」<br/>
<strong>関口</strong>「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」<br/>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/%e3%82%a4%e3%83%b3%e3%82%bf%e3%83%93%e3%83%a5%e3%83%bc-cloudera-%e7%94%b0%e6%be%a4%e5%ad%9d%e4%b9%8b-%e3%81%95%e3%82%93.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[インタビュー] Solr 3.5 トレーニングコース 受講者 ユニバーサルナレッジ 勝又尚人 さん</title>
		<link>http://www.rondhuit.com/%e3%83%a6%e3%83%8b%e3%83%90%e3%83%bc%e3%82%b5%e3%83%ab%e3%83%8a%e3%83%ac%e3%83%83%e3%82%b8-%e5%8b%9d%e5%8f%88%e5%b0%9a%e4%ba%ba-%e3%81%95%e3%82%93.html</link>
		<comments>http://www.rondhuit.com/%e3%83%a6%e3%83%8b%e3%83%90%e3%83%bc%e3%82%b5%e3%83%ab%e3%83%8a%e3%83%ac%e3%83%83%e3%82%b8-%e5%8b%9d%e5%8f%88%e5%b0%9a%e4%ba%ba-%e3%81%95%e3%82%93.html#comments</comments>
		<pubDate>Wed, 08 Feb 2012 11:50:37 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[テクノロジ]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1202</guid>
		<description><![CDATA[Solr 3.5 基礎／応用／データインポートハンドラの3日間の定期開催トレーニングコースを受講されました、ユニバーサルナレッジ株式会社の勝又尚人さんに、受講後のインタビューに応じていただきました。 ユニバーサルナレッジ &#8230;]]></description>
			<content:encoded><![CDATA[Solr 3.5 基礎／応用／データインポートハンドラの3日間の定期開催トレーニングコースを受講されました、<a href="http://universal-knowledge.jp/">ユニバーサルナレッジ株式会社</a>の勝又尚人さんに、受講後のインタビューに応じていただきました。<br/><br/>

<h4>ユニバーサルナレッジについて</h4>
<strong>ロンウイット関口</strong>「ユニバーサルナレッジ（以下、ユニナレ）という会社について教えてください」<br/>
<strong>ユニナレ勝又</strong>「ちょうど1年前に設立された、ECサイトの改善をお手伝いする会社です。私自身は2ヶ月前にJoinしたばかりです」<br/><br/>

<div id="attachment_1205" class="wp-caption alignright" style="width: 490px"><img src="http://www.rondhuit.com/wordpress/wp-content/uploads/7d9a0887927bcfc6096d19aa9f337092-480x403.png" alt="ユニバーサルナレッジ 勝又尚人さん" title="ユニバーサルナレッジ 勝又尚人さん" width="480" height="403" class="size-medium wp-image-1205" /><p class="wp-caption-text">ユニバーサルナレッジ 勝又尚人さん</p></div>

<strong>関口</strong>「その前は何をしていましたか」<br/>
<strong>勝又</strong>「その前はヤフーの検索事業部というところで、ログの集計を担当していました。ユニナレの創業者で社長の井上が元ヤフーで検索事業部長をしていて私の上司でした。井上はその後、バイドゥの社長を経てユニナレを設立しました」<br/><br/>
<strong>関口</strong>「勝又さんはユニナレではどんな業務を担当していますか」<br/>
<strong>勝又</strong>「ユニナレでもログ集計を中心にですが、少人数なのでなんでもやっています。もちろん、検索も」<br/><br/>
<strong>関口</strong>「ログ集計というと世の中Hadoopがはやっていますが、やはりHadoopを使っているのですか」<br/>
<strong>勝又</strong>「いいえ、Hadoopを使うほどデータ量も大きくないので、PerlやPythonでやっています」<br/><br/>
<strong>関口</strong>「ユニナレのECサイトの改善というのは、具体的にどのようなものですか」<br/>
<strong>勝又</strong>「検索を中心としたコンサルティングです。たとえばヨドバシカメラ様では、検索語のサジェスチョンやランキングの改善を行いました。ランキングを改善する前はプリンターを検索すると、プリンターの消耗品が先に表示されてしまっていましたが、改善後はきちんとプリンター本体が先に表示されるようになりました」<br/><br/>

<h4>トレーニングコース受講の動機</h4>
<strong>関口</strong>「今回トレーニングコースを受講していただいた動機はなんでしょうか」<br/>
<strong>勝又</strong>「ユニナレではサジェストサーバーや他の案件の商品検索でもSolrを多用していて、きちんと体系的に学びたいと思ったからです。特に運用周り。たとえばSolrを使っていてエラーが発生したとき、表示されたエラーメッセージでGoogleを検索すると、同じエラーに遭遇した人の解決策が検索できて問題を解決することはできます。でも結局、それはその場しのぎ。それが正解なのかわからないし、なぜそうすると問題がなくなるのか、本当のところはわかりません。体系的に学べばエラーの原因が早くわかるようになり、解決方法が見つけやすくなります。Solrを日常的に使っているコンサルタントのノウハウや知見も得られるだろうという期待もありました」<br/><br/>

<h4>トレーニングコースを受講しての感想</h4>
<strong>関口</strong>「受講してみてどうでしたか」<br/>
<strong>勝又</strong>「体系的に学ぶといったことや、コンサルタントのノウハウや知見が得られるだろうという目的は達成できたと思います。あと、講義時間に比べてテキストの内容が多いですね。残念なことにスキップされた部分が結構ありました」<br/><br/>
<strong>関口</strong>「時間が余ることを恐れて、内容を盛り込みすぎたところは正直あります。時間が余るよりいいだろうと（笑）。スキップしてしまった演習はぜひ自社でやっていただき、不明点は「受講後1ヶ月間のアフターサポート」サービスを利用して、ご質問いただきたいと思います」<br/>
<strong>勝又</strong>「あと、<a href="http://www.amazon.co.jp/exec/obidos/ASIN/4774141755/">「Apache Solr 入門」（技術評論社）</a>はSolr 1.4対応ですが、Senが使えなくてはまりました。トレーニングコースでは最新の3.5で講義が行われ、lucene-gosenでスムーズに演習ができました。それから新しい発見もいろいろありました。dismaxクエリも知りませんでしたし、ファセットを使った絞り込み検索もよく理解できました。残念だったのは、パフォーマンスチューニングが含まれていないことです」<br/><br/>
<strong>関口</strong>「内容が多いので入れることができませんでした。Solrのキャッシュの使い方について演習付きで詳しく解説しているので、そこから発展させればわかるでしょう、という立場です。実際には難しいとは思いますが。もし必要になったら、コンサルティングをご依頼ください（笑）」<br/>
<strong>勝又</strong>「了解しました（笑）」<br/>
<strong>関口</strong>「本日はお疲れのところ、インタビューにおつきあいくださいましてありがとうございました」<br/>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/%e3%83%a6%e3%83%8b%e3%83%90%e3%83%bc%e3%82%b5%e3%83%ab%e3%83%8a%e3%83%ac%e3%83%83%e3%82%b8-%e5%8b%9d%e5%8f%88%e5%b0%9a%e4%ba%ba-%e3%81%95%e3%82%93.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[お客様事例] 株式会社セブンネットショッピング 様</title>
		<link>http://www.rondhuit.com/%e3%81%8a%e5%ae%a2%e6%a7%98%e4%ba%8b%e4%be%8b-%e6%a0%aa%e5%bc%8f%e4%bc%9a%e7%a4%be%e3%82%bb%e3%83%96%e3%83%b3%e3%83%8d%e3%83%83%e3%83%88%e3%82%b7%e3%83%a7%e3%83%83%e3%83%94%e3%83%b3%e3%82%b0.html</link>
		<comments>http://www.rondhuit.com/%e3%81%8a%e5%ae%a2%e6%a7%98%e4%ba%8b%e4%be%8b-%e6%a0%aa%e5%bc%8f%e4%bc%9a%e7%a4%be%e3%82%bb%e3%83%96%e3%83%b3%e3%83%8d%e3%83%83%e3%83%88%e3%82%b7%e3%83%a7%e3%83%83%e3%83%94%e3%83%b3%e3%82%b0.html#comments</comments>
		<pubDate>Mon, 16 Jan 2012 00:32:22 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[ニュース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1193</guid>
		<description><![CDATA[株式会社セブンネットショッピング様のお客様事例パンフレットのダウンロードを開始いたしましたのでお知らせいたします。 2011 年11 ⽉に検索サービスをリニューアルし、さらにユーザー・フレンドリーなEC サイトとして新し &#8230;]]></description>
			<content:encoded><![CDATA[<a href="http://www.7netshopping.jp/all/">株式会社セブンネットショッピング</a>様のお客様事例パンフレットのダウンロードを開始いたしましたのでお知らせいたします。<br/><br/>

<p>
2011 年11 ⽉に検索サービスをリニューアルし、さらにユーザー・フレンドリーなEC サイトとして新しいスタートを切ったセブンネットショッピングは、OSSの検索エンジンSolr/Luceneと形態素解析器lucene‐gosenを採⽤しています。開発に携わった株式会社セブンインターネットラボの技術者の皆様に取材にご協力いただきました。</p>

<br/><br/>

<a href="http://www.rondhuit.com/download.html#casestudy">お客様事例PDFファイルのダウンロードサイトへ</a>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/%e3%81%8a%e5%ae%a2%e6%a7%98%e4%ba%8b%e4%be%8b-%e6%a0%aa%e5%bc%8f%e4%bc%9a%e7%a4%be%e3%82%bb%e3%83%96%e3%83%b3%e3%83%8d%e3%83%83%e3%83%88%e3%82%b7%e3%83%a7%e3%83%83%e3%83%94%e3%83%b3%e3%82%b0.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[Solrプラグイン] セキュリティ警告：Apache Tomcat and the hashtable collision DoS vulnerability</title>
		<link>http://www.rondhuit.com/solr%e3%83%97%e3%83%a9%e3%82%b0%e3%82%a4%e3%83%b3-%e3%82%bb%e3%82%ad%e3%83%a5%e3%83%aa%e3%83%86%e3%82%a3%e8%ad%a6%e5%91%8a%ef%bc%9aapache-tomcat-and-the-hashtable-collision-dos-vulnerability.html</link>
		<comments>http://www.rondhuit.com/solr%e3%83%97%e3%83%a9%e3%82%b0%e3%82%a4%e3%83%b3-%e3%82%bb%e3%82%ad%e3%83%a5%e3%83%aa%e3%83%86%e3%82%a3%e8%ad%a6%e5%91%8a%ef%bc%9aapache-tomcat-and-the-hashtable-collision-dos-vulnerability.html#comments</comments>
		<pubDate>Thu, 29 Dec 2011 03:19:27 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[ニュース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1172</guid>
		<description><![CDATA[お客様各位 平素はお引き立てを賜り、ありがとうございます。 Apache Foundationより当社のプラグインに含まれますTomcatについて、セキュリティ警告のアナウンスが発表されましたので、お知らせします。 対象 &#8230;]]></description>
			<content:encoded><![CDATA[お客様各位<br/><br/>

平素はお引き立てを賜り、ありがとうございます。<br/><br/>

Apache Foundationより当社のプラグインに含まれますTomcatについて、セキュリティ警告のアナウンスが発表されましたので、お知らせします。<br/><br/>

対象Solrプラグインリリース：<br/>
すべて<br/><br/>

内容：<br/>
最近発表されたJavaのハッシュテーブルの実装を要因とする脆弱性の記事[1]をすでにご覧になっているかもしれません。Apache TomcatはHTTPリクエストパラメータを保持するためにハッシュテーブルを使用しているため、この脆弱性に該当いたします。<br/><br/>

記事[1]によれば、オラクル社はこの脆弱性の対応をJREで行わないとのことです。<br/><br/>

Tomcatはこの問題に対する回避策を、単一リクエストにおける処理可能なパラメータ数の上限を設定するために用意された新しいパラメータ（maxParameterCount）をすでに提供しています。このデフォルト値は10000です。この数値はどんなアプリケーションにおいても十分大きく、また、DoS攻撃への効果を軽減するのにも十分小さい値といえます。<br/><br/>

本回避策は以下のバージョンで利用可能です：<br/><br/>

<ul>
	<li>trunk</li>
	<li>7.0.23 以前</li>
	<li>6.0.35 以前</li>
</ul>
<br/><br/>

また、5.5系は5.5.35がリリースされたら、こちらでも利用可能です。<br/><br/>

maxParameterCountパラメータを持たない以前のApache Tomcatを利用している場合は、maxPostSizeパラメータを数十kBに限定することでこの問題を軽減することができるでしょう。<br/><br/>

本件はApache Tomcatの脆弱性としては表出しませんが、アプリケーションがこの問題で影響を受ける可能性があるため、ユーザに回避策をお知らせするため、Apache Tomcatセキュリティチームは今回アナウンスを行いました。<br/><br/>

Apache Tomcatセキュリティチーム<br/><br/>

[1] <a href="http://www.nruns.com/_downloads/advisory28122011.pdf">http://www.nruns.com/_downloads/advisory28122011.pdf</a>
<br/><br/>

以上、今後ともよろしくお願い申し上げます。
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/solr%e3%83%97%e3%83%a9%e3%82%b0%e3%82%a4%e3%83%b3-%e3%82%bb%e3%82%ad%e3%83%a5%e3%83%aa%e3%83%86%e3%82%a3%e8%ad%a6%e5%91%8a%ef%bc%9aapache-tomcat-and-the-hashtable-collision-dos-vulnerability.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Solrサブスクリプションリリース0.6.5/0.7.4/0.8.4のお知らせ</title>
		<link>http://www.rondhuit.com/solr%e3%82%b5%e3%83%96%e3%82%b9%e3%82%af%e3%83%aa%e3%83%97%e3%82%b7%e3%83%a7%e3%83%b3%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b90-6-50-7-40-8-4%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html</link>
		<comments>http://www.rondhuit.com/solr%e3%82%b5%e3%83%96%e3%82%b9%e3%82%af%e3%83%aa%e3%83%97%e3%82%b7%e3%83%a7%e3%83%b3%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b90-6-50-7-40-8-4%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html#comments</comments>
		<pubDate>Wed, 28 Dec 2011 10:28:45 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[ニュース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1170</guid>
		<description><![CDATA[お客様各位 平素はお引き立てを賜り、ありがとうございます。 Solrプラグイン0.6.5/0.7.4/0.8.4をリリースしましたのでお知らせいたします。 本リリースは、lucene-gosen と Tomcat の最新 &#8230;]]></description>
			<content:encoded><![CDATA[お客様各位<br/><br/>

平素はお引き立てを賜り、ありがとうございます。<br/><br/>

Solrプラグイン0.6.5/0.7.4/0.8.4をリリースしましたのでお知らせいたします。<br/><br/>

本リリースは、lucene-gosen と Tomcat の最新バージョンへのアップデートの他、PDFファイルの文字化けが起こりにくい Tika 0.10 の取り込み、およびTikaのAutoDetectParser がテキストファイルの文字コード判別をうまくできないときにContent-typeのcharset指定を通じて文字コードをユーザが指定できる下記の修正を含んでいます。<br/><br/>

<a href="https://issues.apache.org/jira/browse/SOLR-2346">https://issues.apache.org/jira/browse/SOLR-2346</a>
]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/solr%e3%82%b5%e3%83%96%e3%82%b9%e3%82%af%e3%83%aa%e3%83%97%e3%82%b7%e3%83%a7%e3%83%b3%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b90-6-50-7-40-8-4%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Apache ManifoldCF -Webサーバのクロール-</title>
		<link>http://www.rondhuit.com/apache-manifoldcf-web%e3%82%b5%e3%83%bc%e3%83%90%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%ab.html</link>
		<comments>http://www.rondhuit.com/apache-manifoldcf-web%e3%82%b5%e3%83%bc%e3%83%90%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%ab.html#comments</comments>
		<pubDate>Mon, 26 Dec 2011 07:13:15 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[テクノロジ]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=991</guid>
		<description><![CDATA[今回はApache ManifoldCFのWebサーバのクロールをご説明します。 ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 Webサーバ接続によるクロールの特長 　Mani &#8230;]]></description>
			<content:encoded><![CDATA[今回はApache ManifoldCFのWebサーバのクロールをご説明します。<br/>
ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。<br/>
<br/>
	<h4>Webサーバ接続によるクロールの特長</h4>
　ManifoldCFでは、一般的なWebクローラの機能を持っています。HTMLやRSSフィードからリンクを抽出して、HTMLだけでなくリンク先にあるドキュメントをクロールすることができます。そして、そのドキュメントからコンテンツを抽出して、Solrでインデクシングすることができます。<br/>
　企業内のWebサーバで情報共有している社内ポータルの検索や社内管理文書を検索する、といったケースにManifoldCFを使うことができます。Solrと連携してWebのドキュメントの検索を行います。<br/>
<br/>
<br/>
	<h4>準備</h4>
<ol>
	<li><a href="http://www.rondhuit.com/?p=631" target="_blank">「Apache ManifoldCF -セットアップ-」</a>に記載されているセットアップ作業を実施します。</br>
	</li>
	<li>クロール対象のWebサーバを用意します。今回の例では、<a href="http://www.rondhuit.com/download.html" target="_blank">ロンウイットのダウンロードページ</a>をクロールします。</li>
	<li>HTMLがあり、MS Officeファイル、PDFファイルなどがリンクされています。</li>
</ol>
<br/>
	<h4>ManifoldCFの管理画面</h4>
　各コネクタを指定してコネクションを作成し、コネクションをひとつのジョブにまとめます。<br/>
　そして、ジョブで各種項目を設定し、実行することでクロールが実行されます。<br/>
<br/>
　今回は、各コネクタを次のように設定します。<br/>
　WindowsサーバをクロールしてデータをSolrに渡すという流れです。<br/>
<ul>
	<li>アウトプット　→　Solr</li>
	<li>オーソリティ　→　Null</li>
	<li>レポジトリ　→　Web</li>
</ul>
<br/>
1. ManifoldCFの管理画面を表示します。<br/>
<pre>
　http://localhost:8345/mcf-crawler-ui
</pre>


　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui.png"  target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
2. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu.png target="_blank">List Output Connections</a>を選択し、コネクションをAddします。<br/>
　Nameに「Solr」（任意）を入力し、<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_solrconnection.png target="_blank">Typeに「Solr」を選択します。</a><br/>
　Continueボタンを押してSolrに関する詳細設定が表示されますが<br/>
　デフォルトのままで動作するので、変更しません。<br/>
　最後にSaveボタンを押します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listsolr.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listsolr.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
3. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu.png target="_blank">List Authority Connections</a>を選択し、コネクションをAddします。<br/>
　Nameに「Null」（任意）を入力し、<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_nullconnection.png target="_blank">Typeに「Null」を選択します。</a><br/>
　最後にSaveボタンを押します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listnull.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listnull.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
4. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu.png target="_blank">List Repository Connections</a>を選択し、コネクションをAddします。<br/>
　Nameに「Web」（任意）を入力し、<br/>
　<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_webconnection1.png target="_blank">Typeに「Web」を選択し、Authorityに「Null」を選択します。</a><br/>
　Emailタブで、メールアドレスを入力します。<br/>
　最後にSaveボタンを押します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listweb.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_listweb.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
5. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu2.png target="_blank">List all Jobs</a>を選択し、ジョブをAddします。<br/>
　Connectionタブで、登録済みコネクションを指定します。<br/>
　<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job10.png target="_blank">Outputに「Solr」、Repositoryに「Web」を選択します。</a><br/>
　Continueボタンを押してジョブに関する詳細設定が表示されます。<br/>
　<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job11.png target="_blank">Seedsタブでクロール対象の起点となるURLを入力します。</a><br/>
　<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job12.png target="_blank">Inclusionsタブでクロール対象のURL等を入力します。</a><br/>
　<a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job13.png target="_blank">Exclusionsタブでクロール除外対象のURL等を入力します。</a><br/>
　最後にSaveボタンを押します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job14.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_job14.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
6. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu2.png target="_blank">Status and Job Management</a>を選択します。<br/>
　登録済みジョブのStartをクリックして、クロールを実行します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_jobstart.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_jobstart.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
　Refreshをクリックするとでジョブの経過を確認することができます。<br/>
　ステータスにDoneが表示されるとクロールのジョブが終了したことになります。<br/>
<br/>
7. <a href=http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_menu2.png target="_blank">SimpleHistory</a>を選択します。<br/>
　レポジトリを選択してContinueボタンを押します。<br/>
　ジョブの開始終了、リンクおよびドキュメントのアクセスとSolrへの投入状況など<br/>
　クロール履歴を確認することができます。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_simplehistory4.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/mcf-crawler-ui_simplehistory4.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
<br/>
<br/>
	<h4>Solrの管理画面</h4>
　SolrではManifoldCFから渡されてきたデータをインデクシングします。<br/>
　すでに前述までの過程でインデクシングが完了しています。<br/>
　ここでは、検索を行って内容を確認します。<br/>
<br/>
1. Solrの管理画面を表示します。<br/>
<pre>
　http://localhost:8983/solr/admin
</pre>


　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/solradmin.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/solradmin.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
2. 画面中央のsearchボタンを押します。<br/>
　検索結果が返ってきます。<br/>
　（または次のように検索します。）
<pre>

http://localhost:8983/solr/select/?q=*:*&#038;fl=id,text&#038;start=0&#038;rows=20

</pre>


　textフィールドにHTMLやリンク先のドキュメントのコンテンツが登録されていることを確認します。<br/>
　　<a href="http://www.rondhuit.com/wordpress/wp-content/uploads/solrresponse5.png" target="_blank">
<img src="http://www.rondhuit.com/wordpress/wp-content/uploads/solrresponse5.png" alt="" title=""  width="50%" height="30%" class="aligncenter size-full wp-image-407" /></a>
<br/>
<br/>
以上で、ManifoldCFでWebサーバのクロールを行って、Solrでの検索結果を確認しました。<br/>
<br/>
<br/>]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/apache-manifoldcf-web%e3%82%b5%e3%83%bc%e3%83%90%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%ab.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>年末年始休暇のお知らせ</title>
		<link>http://www.rondhuit.com/%e5%b9%b4%e6%9c%ab%e5%b9%b4%e5%a7%8b%e4%bc%91%e6%9a%87%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html</link>
		<comments>http://www.rondhuit.com/%e5%b9%b4%e6%9c%ab%e5%b9%b4%e5%a7%8b%e4%bc%91%e6%9a%87%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html#comments</comments>
		<pubDate>Tue, 13 Dec 2011 00:30:43 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[ニュース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1127</guid>
		<description><![CDATA[お客様各位 平素はお引き立てを賜り、ありがとうございます。 誠に勝手ながら、12月30日（金）～1月5日（木）まで、年末年始のお休みとさせて頂きます。 何卒ご了承くださいますようお願い申し上げます。 株式会社ロンウイット]]></description>
			<content:encoded><![CDATA[お客様各位<br/>
<br/>
平素はお引き立てを賜り、ありがとうございます。<br/>
<br/>
誠に勝手ながら、12月30日（金）～1月5日（木）まで、年末年始のお休みとさせて頂きます。<br/>
<br/>
何卒ご了承くださいますようお願い申し上げます。<br/>
<br/>
株式会社ロンウイット<br/>]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/%e5%b9%b4%e6%9c%ab%e5%b9%b4%e5%a7%8b%e4%bc%91%e6%9a%87%e3%81%ae%e3%81%8a%e7%9f%a5%e3%82%89%e3%81%9b.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Lucene/Solr 3.5 のリリース</title>
		<link>http://www.rondhuit.com/lucenesolr-3-5-%e3%81%ae%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9.html</link>
		<comments>http://www.rondhuit.com/lucenesolr-3-5-%e3%81%ae%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9.html#comments</comments>
		<pubDate>Sun, 27 Nov 2011 01:09:43 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[ニュース]]></category>

		<guid isPermaLink="false">http://www.rondhuit.com/?p=1114</guid>
		<description><![CDATA[本日、Lucene/Solr 3.5.0がリリースされましたのでお知らせします。本リリースでは、検索時メモリ使用量のさらなる低減化や新しい言語判別機能の追加をはじめ多くのバグフィックスが含まれます。弊社の本リリースでの貢 &#8230;]]></description>
			<content:encoded><![CDATA[本日、Lucene/Solr 3.5.0がリリースされましたのでお知らせします。本リリースでは、検索時メモリ使用量のさらなる低減化や新しい言語判別機能の追加をはじめ多くのバグフィックスが含まれます。弊社の本リリースでの貢献は、<a href="https://issues.apache.org/jira/browse/LUCENE-3426">n-gramにおける検索性能の向上（3〜5割）</a>や<a href="https://issues.apache.org/jira/browse/SOLR-1926">新しいハイライトパラメータhl.qの追加</a>などを行いました。<br/><br/>

現在お申し込み受付中の弊社開催トレーニングは、これらの新機能を含むSolr 3.5に対応しております。]]></content:encoded>
			<wfw:commentRss>http://www.rondhuit.com/lucenesolr-3-5-%e3%81%ae%e3%83%aa%e3%83%aa%e3%83%bc%e3%82%b9.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

