2013年3月28日木曜日

第10回solr勉強会に行ってみた

solr 勉強会に行ってみた
そのときのメモ

http://atnd.org/events/37170



第10回solr勉強会 @voyage group本社
〇ロンウイット関口さん
「辞書型コーパスから類義語知識を作成する」
- ウィキペディアを使い類義語辞書を自動で作成する。
- 類似度はコサインで計算。
- 人手でやるより大量な知識が取れた。
- 精度はあるが 類義語獲得に失敗する例もある。
- ソースはあるが、オライリーの lucene&solrの本に載っています。

〇グリー 尾形さん 「グリーの検索の歴史」
- これまであまり力をいれて検索機能をやってなかった
- 2007年 senna使ってた
- 2009 triton使ってたがどれも安定しない
- 2012lucene/solr使い始めてきた
- solrに変えたのでオプティマイズなど大変だったが楽になった
- solr3.6を使い始めた
- サーバーを冗長化 indexer master slaveを複数台用意 計40台
 250qpsくらい cpu60%くらい
- 0:00くらいがピーク レンジクエリがよく使われていてslaveが遅くなることがある
- masterへ分散してインデクシング
- 監視システムはクーロンでやっている
- スキーマ変更を無停止にやるのが煩わしい。
- slave->masterのきりかえが面倒だった
- 日本語と日本語と以外も使うのでメンテナンスが難しかった。精度がよくすることが今後の課題。
- メンテナンスを自動化させてきたが、solrcloudでもっと自動化させたいと検討している。
- インデックスサイズ 80GB x 3台

〇ソフトバンクBB 野口さん 「企業内ファイルサーバ検索」
- 企業内検索 solrとmanifoldcfで企業内ファイル検索を導入した事例
- アクセス権限をつけて検索してた
- 社内ファイルポータルサイトをつくることが目的
- 数々のエラーが発生した
- 複数のファイルサーバを1ジョブでクロールできない
 →コアで分けてクロールさせた
- サイズが大きすぎるとコネクションタイムアウトやアウトオブメモリーが発生する
- 1プロセスで開けられるファイルに制限があったりするエラーも発
- mysqlのスロークエリの問題もでた
- クローリング事態に膨大な時間がかかるため、リアルタイム性が必要なもの/そうでないものでわけてクロールさせた
 →ハイブリッド方式
- インデックスが大きくなりすぎたのでstoredを外した
 → スニペットができないのは残課題
- 類似語検索でローマ字入力、書き間違えも対応するようにした
 →ブーストをかけたりして改善

〇サイバーエージェント 弘瀬さん 「solrcloudの導入事例」
- アメーバ検索はsolrよく使っている
- solrcloudで理解するべき単語、collection shard node core
- simplogでsolrcloudを使ってる 更新5分 ドキュメント295万 検索反映5分
- ノード3台 x 2コレクション構成 メモリー4GB/1サーバ
- レスポンスタイム50msecとけっこう遅いレスポンスだった
- 更新性能を確認した  シャード数を増やして更新時間をみてみた
- シャードを増やすと劣化してくる
- ノードあたりのコレクション数が少ない方が性能がよい
- コレクションあたりのシャード数が少ない方がよい
- デメリットとして、シャードの分割機能がない シャードが一つでもかけるとエラーになる



懇親会で、softbankBBの話で入力ミスでもしかして○○ですかみたいな機能をシノニムでやっていたそう。
シノニム変換って、タームの位置がずれたりしてけっこうつかいづらくてどうしてるのか聞いてみたら
やっぱり解決してないって。ユーザ定義辞書に入れても、内部の文字が検索できなくなるし、とかやっぱり解決してない問題みたい。

ふむふむ

0 件のコメント:

コメントを投稿