INFORMATION
サブスクリプション

西暦と和暦の相互検索機能とは?

2019年4月1日に、「平成」に替わる新元号「令和」が発表になりました。

弊社の「Solr サブスクリプション」は西暦と和暦の相互検索が可能であり、これまでのバージョンでは「平成」まで対応しておりました。今回、5月1日から使われる新元号「令和」が発表になりましたので、Solr サブスクリプションのパッチリリースを行いました。

ところで、どのような場面でこの機能が使われるのでしょうか。一例として、次のような文書(検索対象ドキュメント)があるとします。

平成30年6月に「働き方改革関連法」が成立し、大企業は平成32年4月から、中小企業でも平成33年4月から適用されます。

「働き方改革関連法」が成立した平成30年(2018年)時点では新元号は不明なので、施行・適用される年号は上記のように平成32年や平成33年などと記述されます。この文書が、新元号を使った検索「令和2年」や「令和3年」、西暦での検索「2020年」や「2021年」でヒットしないのは大変不便です。

弊社の検索エンジンでは、次のような検索キーワードで上記文書をヒットさせることができます。

検索キーワードヒットする文書の箇所
2020年平成32年
2021年平成33年
令和2年平成32年

もし同じ文が、西暦で書かれていたらどうでしょうか。

2018年6月に「働き方改革関連法」が成立し、大企業は2020年4月から、中小企業でも2021年4月から適用されます。

この文書も問題なく、次のようなキーワードで検索が可能です。

検索キーワードヒットする文書の箇所
平成30年2018年
平成32年2020年
令和3年2021年

次のように漢数字で書かれる場合もあるでしょう。それでも問題なく検索できます。

平成三十年六月に「働き方改革関連法」が成立し、大企業は令和二年四月から、中小企業でも令和三年四月から適用されます。

検索キーワードヒットする文書の箇所
2018年平成三十年
平成32年令和二年
平成三十三年令和三年

日本語の文書はこのように、西暦や和暦が混在したり、実際には存在しない年(平成32年など)が使われたり、漢数字や算用数字が入り交じったりするのですが、このような文書も漏れなくヒットさせるためにはこのような機能が必須です。弊社の検索エンジンでは、このような西暦・和暦の混在や、漢数字と算用数字が混在した文書やキーワードでも漏れなくヒットさせることが可能です。

以上、弊社製品の和暦・西暦の相互検索機能を紹介させていただきました。


トレーニングコース

ロンウイットのトレーニングは、Lucene/Solrの経験豊富なコミッターの
監修のもと開発されたハンズオン(実習)形式のコースです。

セミナー

ロンウイットのApache Software Foundationコミッターが、情報検索の基礎、自然言語処理、そして、ユーザにとっての効果についてご説明させていただきます。