*英語テキストの入力方法 [#q4e32236] 下記の方法で英語テキストを入力した場合、語幹抽出処理によって取り出した語幹を単語として処理します。 **メニューウインドウ内「ファイル」ボタンからの入力 [#daab4394] テキストからファイル読み込みの際に、プルダウンで「英語テキスト」を選択した後、 ファイルを選択します。 **コマンドラインからの入力 [#dce77201] ファイル名のあとに引数「1」を追加して起動する. 例) >java -Xmx1024m -jar TET.jar text/english.txt 1 >java -Xmx1536m -jar TET.jar text/english.txt 1 *英語テキスト処理時の注意点 [#oac10fdc] -&color(red){英語テキストの入力を行う前後で,日本語テキストや[[CSVテキストの入力]]は扱えません.}; -すべての単語は、&color(red){名詞};として扱われます。 -,(カンマ)はカットされます。 -. ! ?(ピリオド,エクスクラメーションマーク,クエスチョンマーク)で文の区切りとしてカットされ、 代わりに「。」句点が挿入されます。 -セグメントの区切りには、日本語テキストと同様に、デフォルトでは「スナリバラフト」を用います。 -[[CSVテキストの入力条件>CSVテキストの入力]]と重複したときにも、英語テキストとして扱われます。 -英語テキストの処理時にも、be動詞(is, ar, am, wa, were, be)の前の名詞を主語として判定しますが、現在すべての単語を名詞として扱い、日本語の処理に準じて、be動詞の直前より2つ前の単語が優先されるため、主語判定の精度は高くありません。 *語幹抽出プログラムの詳細 [#od4a46d1] -Porter stemmer in Java. The original paper is in Porter, 1980, An algorithm for suffix stripping, Program, Vol.14, No.3, pp. 130-137. -参考URL: http://www.tartarus.org/~martin/PorterStemmer