英語テキストの入力のバックアップ(No.3) - PukiWiki

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
英語テキストの入力へ行く。
- 1 (2015-08-11 (火) 22:37:57)
- 2 (2015-08-11 (火) 23:12:34)
- 3 (2015-11-30 (月) 00:22:53)
- 4 (2015-12-04 (金) 12:53:00)

英語テキストの入力方法 †

下記の方法で英語テキストを入力した場合、語幹抽出処理によって取り出した語幹を単語として処理します。

メニューウインドウ内「ファイル」ボタンからの入力 †

テキストからファイル読み込みの際に、プルダウンで「英語テキスト」を選択した後、ファイルを選択します。

コマンドラインからの入力 †

ファイル名のあとに引数「1」を追加して起動する．

	例)
	>java -Xmx1024m -jar TET.jar text/english.txt 1

英語テキスト処理時の注意点 †

すべての単語は、名詞として扱われます。
,（カンマ）はカットされます。
. ! ?（ピリオド，エクスクラメーションマーク，クエスチョンマーク）で文の区切りとしてカットされ、代わりに「。」句点が挿入されます。
セグメントの区切りには、日本語テキストと同様に、デフォルトでは「スナリバラフト」を用います。
CSVテキストの入力条件と重複したときにも、英語テキストとして扱われます。
英語テキストの処理時にも、be動詞(is, ar, am, wa, were, be)の前の名詞を主語として判定しますが、現在すべての単語を名詞として扱い、日本語の処理に準じて、be動詞の直前より2つ前の単語が優先されるため、主語判定の精度は高くありません。

語幹抽出プログラムの詳細 †

Porter stemmer in Java. The original paper is in

     Porter, 1980, An algorithm for suffix stripping, 
     Program, Vol.14, No.3, pp. 130-137.

参考URL： http://www.tartarus.org/~martin/PorterStemmer