2013年5月26日日曜日

Lucene のgetTermFreqVectorはもう使えてないお。。。

あるドキュメントにどんなタームがいくつあるかを探して来て、
機械学習でカテゴリ分類をやりたいと思ってる。

getTermFreqVector を使うと簡単みたいなのを見つけた。

http://lucene.jugem.jp/?eid=178

でもさ、これlucene3.5くらいから使えなくなってるんだよね。。。


stackoverflowにまさにこんなスレッドを見つけた。

http://stackoverflow.com/questions/12098083/term-vector-frequency-in-lucene-4-0


でなんとかかんとか getTermVector()を使ってみた。
setStoreTermVectors と setStoreTermVectorPositionsが必要とわからなくて
すげー時間取られた。


---------------------------------------------

"安倍晋三首相が26日、ミャンマーのテイン・セイン大統領との首脳会談で、ミャンマーの民主化や法の支配を強化する方針を強調したのは、台頭する中国をけん制する狙いがある。首相は昨年12月の就任後から中国の周辺国を積極的に訪れており、周辺各国との経済関係の強化をテコに中国の包囲網を築きたい考えだ。";

---------------------------------------------

大統領 : 1
支配 : 1
ミャンマ : 2
化 : 1
的 : 1
法 : 1
積極 : 1
安倍 : 1
後 : 1
12 : 1
セイン : 1
会談 : 1
網 : 1
強化 : 2
築く : 1
経済 : 1
狙い : 1
民主 : 1
中国 : 3
周辺 : 2
首相 : 2
包囲 : 1
けん制 : 1
昨年 : 1
晋 : 1
強調 : 1
就任 : 1
各国 : 1
おる : 1
26 : 1
首脳 : 1
関係 : 1
訪れる : 1
月 : 1
三 : 1
テコ : 1
方針 : 1
日 : 1
国 : 1
考え : 1
台頭 : 1
テイン : 1

---------------------------------------------


うむこれでカテゴリ分類機を作れそうだ。

0 件のコメント:

コメントを投稿