2014年9月27日土曜日

Lucene JapaneseTokenizerで文章分割

テスト
package test;

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.ja.JapaneseTokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public class TestClass {
 static final String SENTENCE = "今日は天気がいい。";
 public static void main(String[] args) {
  // TODO 自動生成されたメソッド・スタブ
  Reader reader = new StringReader(SENTENCE);
  System.out.println(SENTENCE);
  TokenStream stream = new JapaneseTokenizer(reader, null, true, JapaneseTokenizer.Mode.NORMAL);
  try {
   stream.reset();
   while (stream.incrementToken()) {
       CharTermAttribute term = stream.getAttribute(CharTermAttribute.class);
       System.out.println(term.toString());
   }
  } catch (IOException e) {
   // TODO 自動生成された catch ブロック
   e.printStackTrace();
  }
 }
}

0 件のコメント:

コメントを投稿