- 追加された行はこの色です。
- 削除された行はこの色です。
*英語テキストの入力方法 [#q5dc2541]
下記の方法で英語テキストを入力した場合、Stemming処理によって語幹を取り出した単語を用いて処理します。
*CSVテキストの入力方法 [#q5dc2541]
拡張子が.csvのcsv形式のファイルを入力とすると、形態素解析を行わない入力を行えます。
**メニューウインドウ内「ファイル」ボタンからの入力 [#je0ae209]
テキストからファイル読み込みの際に、プルダウンで「英語テキスト」を選択した後、
ファイルを選択します。
テキストからファイル読み込みの際に、拡張子が「.csv」のファイルを選択します。
**コマンドラインからの入力 [#t4d7ec6a]
ファイル名のあとに引数「1」を追加して起動する.
拡張子が「.csv」のファイルを指定して起動します.
例)
>java -Xmx1024m -jar TETDM.jar text/english.txt 1
>java -Xmx1536m -jar TET.jar text/data.csv
*英語テキスト処理時の注意点 [#p49e46fe]
-すべての単語は、&color(red){名詞};として扱われます。
-,(カンマ)はカットされます。
-. ! ?(ピリオド,エクスクラメーションマーク,クエスチョンマーク)で文の区切りとしてカットされ、
代わりに「。」句点が挿入されます。
-セグメントの区切りには、日本語テキストと同様に、デフォルトでは「スナリバラフト」を用います。
*CSVテキスト処理時の注意点 [#p49e46fe]
-&color(red){CSVテキストの入力を行う前後で,日本語テキストや[[英語テキストの入力]]は扱えません.};
-すべての単語(カンマで区切られた文字列)は、&color(red){名詞};として扱われます。
-改行で文の区切りとして扱われ、句点「。」が文末に挿入されます。
-セグメントの区切りには、デフォルトでは「スナリバラフト」を用います。
-[[英語テキストの入力条件>英語テキストの入力]]と重複したときには、英語テキストとして扱われます。
(CSVテキストとしては処理されません)
*stemmingプログラムの詳細 [#v1ce0dfd]
-Porter stemmer in Java. The original paper is in
Porter, 1980, An algorithm for suffix stripping,
Program, Vol.14, No.3, pp. 130-137.
-参考URL: http://www.tartarus.org/~martin/PorterStemmer