英語テキストの入力方法 †
下記の方法で英語テキストを入力した場合、Stemming処理によって語幹を取り出した単語を用いて処理します。
メニューウインドウ内「ファイル」ボタンからの入力 †
テキストからファイル読み込みの際に、プルダウンで「英語テキスト」を選択した後、
ファイルを選択します。
コマンドラインからの入力 †
ファイル名のあとに引数「1」を追加して起動する.
例)
>java -Xmx1024m -jar TETDM.jar text/english.txt 1
英語テキスト処理時の注意点 †
- すべての単語は、名詞として扱われます。
- ,(カンマ)はカットされます。
- . ! ?(ピリオド,エクスクラメーションマーク,クエスチョンマーク)で文の区切りとしてカットされ、
代わりに「。」句点が挿入されます。
- セグメントの区切りには、日本語テキストと同様に、デフォルトでは「スナリバラフト」を用います。
stemmingプログラムの詳細 †
- Porter stemmer in Java. The original paper is in
Porter, 1980, An algorithm for suffix stripping,
Program, Vol.14, No.3, pp. 130-137.