統合環境の起動とテキストファイルの入力

アイコンのダブルクリックによる起動

  • ファイル TETDM.batをダブルクリック (Windowsマシン限定)
    • コマンドプロンプト経由で,1536MB(1.5GB)のメモリを確保して起動します.
    • jarファイルから起動した場合に比べて,起動速度が速く,エラーの確認ができます.
  • ファイル TETDM.commandをダブルクリック (Macマシン限定)
    • コマンドプロンプト経由で,1536MB(1.5GB)のメモリを確保して起動します.
    • jarファイルから起動した場合に比べて,起動速度が速く,エラーの確認ができます.
  • ファイル TETDM-**.jar(例えばTETDM-4.00.jar)のアイコンをダブルクリック
    • 1536MB(1.5GB)のメモリを確保して起動します
  • テキストファイルの入力
    • 起動後に表示される「テキストエディタ」のパネルに,入力テキストをカットアンドペーストで貼付けて「保存+実行」ボタンを押す(全モード)
    • 画面左上の「ファイル」ボタンを押して,ファイルを指定して入力する(通常,拡張モード)

入力テキストファイルのドラッグアンドドロップによる起動

  • Windowsの場合
    • TETDM.bat ファイルの上に,入力テキストファイルをドラッグアンドドロップする
  • Macの場合
    • TETDM.app(顔画像のアイコン)の上に,入力テキストファイルをドラッグアンドドロップする
      • TETDM.appが機能しない(ダブルクリックすると「TETDMは壊れているため開けません。"ゴミ箱"に入れる必要があります。」と言われる)場合、ターミナルを起動して、以下のコマンドを実行すると使用できます。
        		cd desktop/tetdm-4.00  (デスクトップにtetdm-4.00をおいている場合)
        		xattr -rc TETDM.app
  • いずれも,1536MB(1.5GB)のメモリを使用するように設定されています.

コマンドラインからの起動

  • 入力テキストなしで起動する場合
    • tetdmフォルダ内で次のコマンドを実行
      	java -Xmx1536m -jar TET.jar
      • 1536の部分に使用するメモリ(MB)を指定(1024以上での利用を推奨します)
  • 入力テキストを与えて起動する場合
    • tetdmフォルダ内で次のコマンドを実行
      	java -Xmx1536m -jar TET.jar [入力テキストのファイル名]
      • ex) java -Xmx1536m -jar TET.jar text/urashima.txt

テキストの入力方法の詳細(一部上記と重複)

統合環境起動後のコピー&ペーストによるテキスト入力(全モード)

  • あるパネルに,処理ツール「テキストエディタ」と可視化ツール「テキスト表示」の組合せがセットされている状態で,テキストフォーム内に入力したいテキストを貼付けて,「保存+実行」ボタンを押すと入力テキストとして扱われます.
  • 貼付けたテキストに句点や段落の区切りを挿入したい場合は,「改行で文に」「空行で段落に」ボタンを利用することもできます.

統合環境起動後のファイル読み込みによる入力(通常,拡張モード)

  • 単一テキストの入力は,メニューウインドウの「ファイル」ボタンを押して,テキストファイルを選択して与えます
  • 複数テキストの入力は,メニューウインドウの「フォルダ」ボタンを押して,フォルダを選択して与えます
  • フォルダ内のファイルをすべて結合したテキストファイル,「フォルダ名.txt」が作成され,フォルダtextの中に保存されます.
    (選択したフォルダ内のすべてのファイル(隠しファイルは除く)を結合しますので,フォルダ内の確認を行ってから選択して下さい.)
    (2度目からは,作成されたファイルをtextフォルダから読み込むことをおすすめします)
  • 結合の際には,テキスト間に「スナリバラフト」が挿入されます.
  • フォルダ内のファイルの表示順に結合されます.
  • フォルダ内のテキストの日本語文字コードは,Shift-JIS と EUC のどちらでも(混ざっていても)問題ありません
    • Windowsのjava1.7の場合,文字コードEUCのテキストを読み込めない可能性があるようです.その場合は文字コードをShift-JISに変換してご利用ください.

入力テキストの形式

  • [日本語文字コード]Shift-JIS か EUC のテキストを入力できます.
    • 日本語文字コードがUTF-8のテキストは,ファイル選択時に「日本語(UTF-8)」をすると読み込むことができます.
    • コマンドラインからは,ファイル名の後ろに,0と1をオプションとして渡すことで入力することができます.
      	例)
      	>java -Xmx1536m -jar TET.jar text/urashimautf8.txt 0 1
  • [文の区切り]句点(。や.)を文の区切りとして取り扱います.(句点が1つもないテキストでは動作しません)
  • [段落の区切り]単一テキストの場合,テキスト内に「スナリバラフト(環境設定で設定したセグメント区切りの文字列)」という文字列を挿入することで, 段落(セグメント)の区切りを与えることができます.
  • [テキストの区切り]複数テキストを入力する場合,テキスト間に「スナリバラフト」という文字列を挿入して1つのテキストに結合させることで,テキスト(セグメント)の区切りを与えた,入力テキストを生成することができます.
    • 複数テキストを入力する場合,テキストの区切りと段落の区切りを区別して与えることはできません.
  • [ファイル名]フォルダ名(ファイルがあるフォルダを含む)およびファイル名に日本語は使えません
  • [ファイルへの処理]統合環境内のすべての処理は,入力テキストのコピー「入力ファイル名2」に対して行われます.
    • (どんな操作を行っても元のテキストが失われることはありません fileio.png
  • [半角スペース,タブ]半角スペース,タブは,バージョン4.30までは改行に,以降のバージョンでは全角スペースに自動的に変換されます.

入力テキストの長さ

  • バージョン4.00時点で,以下の数値を設定しています.設定のないところは上限はありませんが,マシンのスペックや必要とするメモリ量によっては動作しない場合があります.
  • キーワード数の最大値:10000
  • キーワード間の関連度計算を行うキーワード数の最大値:1500
  • 文間の関連度計算を行う文数の最大値:100
  • セグメント間の関連度計算を行うセグメント数の最大値:1000

日本語文章テキスト以外の入力

英語テキストの入力

CSVテキストの入力


添付ファイル: filefileio.png 1621件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-05-07 (木) 14:07:58 (1542d)