チュートリアルで試せる内容

1)作成する処理ツールの仕様を決めます

  • [ツール名] NounTop10(名詞TOP10)
  • [入力] テキスト情報
  • [処理] テキストに含まれる,名詞を頻度が高い順に10個抽出する
  • [出力] 名詞の頻度上位10個の頻度を格納した配列
    • (a) 可視化ツールScoreDist で頻度の棒グラフを表示

2)雛形のSample1.java を利用して,ツール作成の準備をします

  • tetdmのフォルダ内の,moduleフォルダ内のMiningModuleフォルダ内にある,Sample1フォルダを,フォルダごとコピーします
  • コピーしてできたフォルダの名前を,作成するツール名「NounTop10」に変更します
  • コピーして作成したフォルダ内のファイル名を変更します
    • Sample1.java -> NounTop10.java
    • Sample1.txt -> NounTop10.txt (テキストファイルの中身も「名詞TOP10」に変更します)
    • 必要に応じて,ツール完成後にREADME.txtを修正します

3)NounTop10.java を編集し,プログラム作成の準備をします

  • プログラム中の Sample1 と書かれている箇所をすべて NounTop10 に変更します(コメント内を含め5カ所)
    • // NounTop10.java Version 0.30
    • package module.MiningModules.NounTop10;
    • public class NounTop10 extends MiningModule
    • public NounTop10()
    • System.out.println("writing ERROR in NounTop10");

コンストラクタの記述の修正

  • ツールのIDを決め,コンストラクタ内のメソッド setModuleID の引数として与えます
  • 配列 pairingVisualizationID を初期化して,ペアとなる可視化インタフェースツールのIDを指定します.
	public NounTop10()
	{
		setModuleID(9911);	// Set your module ID after you have got it
		pairingVisualizationID = new int[]{4};
		setToolType(2);
	}

4)一度コンパイルして,NounTop10ツールの動作を確認します

  • make または ant コマンドでコンパイルします
  • コンパイル後TETDMプログラムを起動して,いずれかのテキストを読み込みます
  • パネル上部の「ツール選択」ボタンを押した後,左側の「名詞TOP10(Pr)」を選択した後,右側の「テキスト(Pr)」を選択します
  • 入力テキストが,単語間にスペースが入った状態で表示されていることを確認します(Sample1.java の処理)

5)プログラムの作成に使える入力情報を確認します

  • テキスト情報は,TextData型の変数 text に予め格納されているので,その中の単語情報に関するメンバー変数を確認します
  • テキストデータ
    • KeywordData keyword[];
    • int keywordNumber;
    • String word; (KeywordDataクラス内)
    • int frequency; (KeywordDataクラス内)
    • int partOfSpeech; (KeywordDataクラス内.値が1なら名詞)

6)名詞の頻度上位10個を求めるプログラムを作成します

  • グローバル領域で,次の変数を宣言します
	int top10frequency[];
  • miningOperations メソッドの case 0: が自動的に実行されますので,そこから呼び出されるところに記述します.
  • ソートには,source/Utilityフォルダ内のQsort.javaを利用することができます(// import source.Utility.*; のコメントアウトを外して利用します)

void MyMethod()内に作成する場合

	void MyMethod()
	{	
		int nounID[] = new int[text.keywordNumber];
		int frequency[] = new int[text.keywordNumber];
		int count;
		
		count = 0;
		for(int i=0;i<text.keywordNumber;i++)
			if(text.keyword[i].partOfSpeech == 1)
			{
				frequency[i] = text.keyword[i].frequency;
				count++;
			}
			else
				frequency[i] = 0;
		
		Qsort.initializeIndex(nounID, text.keywordNumber);
		Qsort.quicksort(frequency, nounID, text.keywordNumber);
		if(count > 10)
			count = 10;
	
		top10frequency = new int[count];			
		
		for(int i=0;i<count;i++)
			top10frequency[i] = frequency[i];
	}	

7)出力を可視化ツールに渡します

  • 可視化ツール ScoreDist がsetDataメソッドによって受け取ることができるデータ型とデータ数を,README.txtファイルや,ソースプログラム(コンストラクタ内のdataNumbers[])を見て確認します
  • ScoreDist は,int型の配列を1つ(dataIDが0のデータのみ)受け取って,その棒グラフを表示します
	case 0:
               MyMethod();
               resetData();
               setDataIntegerArray(top10frequency);
               break;
  • 可視化ツールにデータを渡す際に,下記のメソッドにより,dataIDを0に初期化できます.
    • resetData();
    • dataIDの値は,各データ型ごとに,setData***()メソッドを呼び出すごとに,1ずつ増加していきますので,データを送りなおす場合などに,このメソッドを呼び出す必要があります.

8)コンパイルして動作を確認します

  • 浦島太郎であれば「浦島 リュウグウ 乙姫 太郎 景色 子供 背中 不思議 綺麗 浜辺」の頻度の棒グラフが表示されます

添付ファイル: fileNounTop10.java 499件 [詳細]

トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-11-29 (日) 23:25:04 (2451d)