処理ツール作成１改２のバックアップ(No.1)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
処理ツール作成１改２へ行く。
- 1 (2013-04-26 (金) 01:51:02)
- 2 (2013-04-26 (金) 02:08:46)
- 3 (2013-04-27 (土) 22:32:11)
- 4 (2013-05-10 (金) 15:38:37)

チュートリアルで試せる内容 †

マイニング処理モジュールの作り方(簡易版)?
- 色付きの部分が「処理モジュール作成１」との違いです

↑

1)作成する処理モジュールの仕様を決めます †

[モジュール名] NounTop10（名詞TOP10）
[入力] テキスト情報
[処理] テキストに含まれる，名詞を頻度が高い順に10個抽出する
[出力] 名詞の頻度上位10個の頻度を格納した配列
- (a) 可視化モジュールScoreDist で頻度の棒グラフを表示

↑

2)雛形のSample1.java を利用して，モジュール作成の準備をします †

tetdmのフォルダ内の，moduleフォルダ内のMiningModuleフォルダ内にある，Sample1フォルダを，フォルダごとコピーします
コピーしてできたフォルダの名前を，作成するモジュール名「NounTop10」に変更します
コピーして作成したフォルダ内のファイル名を変更します
- Sample1.java -> NounTop10.java
- Sample1.txt -> NounTop10.txt (テキストファイルの中身も「名詞TOP10」に変更します)
- 必要に応じて，モジュール完成後にREADME.txtを修正します

↑

3)NounTop10.java を編集し，プログラム作成の準備をします †

プログラム中の Sample1 と書かれている箇所をすべて NounTop10 に変更します（コメント内を含め5カ所）
- // NounTop10.java Version 0.30
- package module.MiningModules.NounTop10;
- public class NounTop10 extends MiningModule
- public NounTop10()
- System.out.println("writing ERROR in NounTop10");

↑

コンストラクタの記述の修正 †

モジュールのIDを決め，コンストラクタ内のメソッド setModuleID の引数として与えます
配列 pairingVisualizationID を初期化して，ペアとなる可視化インタフェースモジュールのIDを指定します．
- ScoreDist の 4 を指定します．可視化インタフェースツール一覧
- setToolType(2); ツールタイプはプリミティブになります．（今回はそのまま）

	public NounTop10()
	{
		setModuleID(9911);	// Set your module ID after you have got it
		pairingVisualizationID = new int[]{4};
		setToolType(2);
	}

↑

4)一度コンパイルして，NounTop10モジュールの動作を確認します †

make または ant コマンドでコンパイルします
コンパイル後TETDMプログラムを起動して，いずれかのテキストを読み込みます
パネル上部の「ツール選択」ボタンを押した後，左側の「名詞TOP10(Pr)」をダブルクリックして選択します
入力テキストが，単語間にスペースが入った状態で表示されていることを確認します（Sample1.java の処理）

↑

5)プログラムの作成に使える入力情報を確認します †

テキスト情報は，TextData型の変数 text に予め格納されているので，その中の単語情報に関するメンバー変数を確認します
テキストデータ
- KeywordData keyword[];
- int keywordNumber;
- String word; (KeywordDataクラス内)
- int frequency; (KeywordDataクラス内)
- int partOfSpeech; (KeywordDataクラス内．値が1なら名詞)

↑

6)名詞の頻度上位10個を求めるプログラムを作成します †

グローバル領域で，次の変数を宣言します

	int top10frequency[];

miningOperations メソッドの case 0: が自動的に実行されますので，そこから呼び出されるところに記述します．
ソートには，source/Utilityフォルダ内のQsort.javaを利用することができます（// import source.Utility.*; のコメントアウトを外して利用します）

↑

void MyMethod()内に作成する場合 †

	void MyMethod()
	{	
		int nounID[] = new int[text.keywordNumber];
		int frequency[] = new int[text.keywordNumber];
		int count;
		
		count = 0;
		for(int i=0;i<text.keywordNumber;i++)
			if(text.keyword[i].partOfSpeech == 1)
			{
				frequency[i] = text.keyword[i].frequency;
				count++;
			}
			else
				frequency[i] = 0;
		
		Qsort.initializeIndex(nounID, text.keywordNumber);
		Qsort.quicksort(frequency, nounID, text.keywordNumber);

		if(count > 10)
			count = 10;
	
		top10frequency = new int[count];			
		
		for(int i=0;i<count;i++)
			top10frequency[i] = frequency[i];
	}

↑

7)出力を可視化モジュールに渡します †

可視化モジュール ScoreDist がsetDataメソッドによって受け取ることができるデータ型とデータ数を，README.txtファイルや，ソースプログラム（コンストラクタ内のdataNumbers[]）を見て確認します

ScoreDist は，int型の配列を1つ(dataIDが0のデータのみ)受け取って，その棒グラフを表示します

	case 0:
               MyMethod();
               resetData();
               setDataIntegerArray(top10frequency);
               break;

可視化モジュールにデータを渡す際に，下記のメソッドにより，dataIDを0に初期化できます．
- resetData();
- dataIDの値は，各データ型ごとに，setData***()メソッドを呼び出すごとに，1ずつ増加していきますので，データを送りなおす場合などに，このメソッドを呼び出す必要があります．

↑

8)コンパイルして動作を確認します †

浦島太郎であれば「浦島リュウグウ乙姫太郎景色子供背中不思議綺麗浜辺」の頻度の棒グラフが表示されます

処理ツール作成１改２ のバックアップ(No.1)

チュートリアルで試せる内容 †

1)作成する処理モジュールの仕様を決めます †

2)雛形のSample1.java を利用して，モジュール作成の準備をします †

3)NounTop10.java を編集し，プログラム作成の準備をします †

コンストラクタの記述の修正 †

4)一度コンパイルして，NounTop10モジュールの動作を確認します †

5)プログラムの作成に使える入力情報を確認します †

6)名詞の頻度上位10個を求めるプログラムを作成します †

void MyMethod()内に作成する場合 †

7)出力を可視化モジュールに渡します †

8)コンパイルして動作を確認します †

処理ツール作成１改２のバックアップ(No.1)