*チュートリアルで試せる内容 [#b3074936] -[[マイニング処理モジュールの作り方(簡易版)]] --&color(red){色付きの部分が「[[処理モジュール作成1]]」との違いです}; -[[マイニング処理ツールの作り方(簡易版)]] --&color(red){色付きの部分が「[[処理ツール作成1]]」との違いです}; *1)作成する処理モジュールの仕様を決めます [#tbc32ff3] -[モジュール名] NounTop10(名詞TOP10) *1)作成する処理ツールの仕様を決めます [#tbc32ff3] -[ツール名] NounTop10(名詞TOP10) -[入力] テキスト情報 -[処理] テキストに含まれる,名詞を頻度が高い順に10個抽出する -&color(red){[出力] 名詞の頻度上位10個の頻度を格納した配列}; --&color(blue){(a) 可視化モジュールScoreDist で頻度の棒グラフを表示}; --&color(blue){(a) 可視化ツールScoreDist で頻度の棒グラフを表示}; *2)雛形のSample1.java を利用して,モジュール作成の準備をします [#b4aec6be] *2)雛形のSample1.java を利用して,ツール作成の準備をします [#b4aec6be] -tetdmのフォルダ内の,moduleフォルダ内のMiningModuleフォルダ内にある,Sample1フォルダを,フォルダごとコピーします -コピーしてできたフォルダの名前を,作成するモジュール名「NounTop10」に変更します -コピーしてできたフォルダの名前を,作成するツール名「NounTop10」に変更します -コピーして作成したフォルダ内のファイル名を変更します --Sample1.java -> NounTop10.java --Sample1.txt -> NounTop10.txt (テキストファイルの中身も「名詞TOP10」に変更します) --必要に応じて,モジュール完成後にREADME.txtを修正します --必要に応じて,ツール完成後にREADME.txtを修正します *3)NounTop10.java を編集し,プログラム作成の準備をします [#xa8dcba6] -プログラム中の Sample1 と書かれている箇所をすべて NounTop10 に変更します(コメント内を含め5カ所) ---// NounTop10.java Version 0.30 ---package module.MiningModules.NounTop10; ---public class NounTop10 extends MiningModule ---public NounTop10() ---System.out.println("writing ERROR in NounTop10"); **コンストラクタの記述の修正 [#xfa9f11b] -モジュールのIDを決め,コンストラクタ内のメソッド setModuleID の引数として与えます -配列 pairingVisualizationID を初期化して,ペアとなる可視化インタフェースモジュールのIDを指定します. -ツールのIDを決め,コンストラクタ内のメソッド setModuleID の引数として与えます -配列 pairingVisualizationID を初期化して,ペアとなる可視化インタフェースツールのIDを指定します. ---&color(blue){ScoreDist の 4 を指定します.};[[可視化インタフェースツール一覧]] ---setToolType(2); [[ツールタイプ]]はプリミティブになります.(今回はそのまま) public NounTop10() { setModuleID(9911); // Set your module ID after you have got it pairingVisualizationID = new int[]{4}; setToolType(2); } *4)一度コンパイルして,NounTop10モジュールの動作を確認します [#pe30a338] *4)一度コンパイルして,NounTop10ツールの動作を確認します [#pe30a338] -make または ant コマンドでコンパイルします -コンパイル後TETDMプログラムを起動して,いずれかのテキストを読み込みます -パネル上部の「ツール選択」ボタンを押した後,左側の「名詞TOP10(Pr)」を選択した後,右側の「テキスト(Pr)」を選択します -入力テキストが,単語間にスペースが入った状態で表示されていることを確認します(Sample1.java の処理) *5)プログラムの作成に使える入力情報を確認します [#jf2dcfe5] -テキスト情報は,TextData型の変数 text に予め格納されているので,その中の単語情報に関するメンバー変数を確認します -[[テキストデータ>http://www.sys.info.hiroshima-cu.ac.jp/people/sunayama/future/textdata.html]] ---KeywordData keyword[]; ---int keywordNumber; ---String word; (KeywordDataクラス内) ---int frequency; (KeywordDataクラス内) ---int partOfSpeech; (KeywordDataクラス内.値が1なら名詞) *6)名詞の頻度上位10個を求めるプログラムを作成します [#l80858f5] -&color(blue){グローバル領域で,次の変数を宣言します}; int top10frequency[]; -miningOperations メソッドの case 0: が自動的に実行されますので,そこから呼び出されるところに記述します. -ソートには,source/Utilityフォルダ内のQsort.javaを利用することができます(// import source.Utility.*; のコメントアウトを外して利用します) **&color(blue){void MyMethod()内に作成する場合}; [#n1437443] void MyMethod() { int nounID[] = new int[text.keywordNumber]; int frequency[] = new int[text.keywordNumber]; int count; count = 0; for(int i=0;i<text.keywordNumber;i++) if(text.keyword[i].partOfSpeech == 1) { frequency[i] = text.keyword[i].frequency; count++; } else frequency[i] = 0; Qsort.initializeIndex(nounID, text.keywordNumber); Qsort.quicksort(frequency, nounID, text.keywordNumber); if(count > 10) count = 10; top10frequency = new int[count]; for(int i=0;i<count;i++) top10frequency[i] = frequency[i]; } *7)出力を可視化モジュールに渡します [#oca47ae1] *7)出力を可視化ツールに渡します [#oca47ae1] -可視化モジュール &color(blue){ScoreDist}; がsetDataメソッドによって受け取ることができるデータ型とデータ数を,README.txtファイルや,ソースプログラム(コンストラクタ内のdataNumbers[])を見て確認します -可視化ツール &color(blue){ScoreDist}; がsetDataメソッドによって受け取ることができるデータ型とデータ数を,README.txtファイルや,ソースプログラム(コンストラクタ内のdataNumbers[])を見て確認します -&color(blue){ScoreDist は,int型の配列を1つ(dataIDが0のデータのみ)受け取って,その棒グラフを表示します}; case 0: MyMethod(); resetData(); setDataIntegerArray(top10frequency); break; -可視化モジュールにデータを渡す際に,下記のメソッドにより,dataIDを0に初期化できます. -可視化ツールにデータを渡す際に,下記のメソッドにより,dataIDを0に初期化できます. ---resetData(); ---dataIDの値は,各データ型ごとに,setData***()メソッドを呼び出すごとに,1ずつ増加していきますので,データを送りなおす場合などに,このメソッドを呼び出す必要があります. *8)コンパイルして動作を確認します [#e41e293e] -&color(red){浦島太郎であれば「浦島 リュウグウ 乙姫 太郎 景色 子供 背中 不思議 綺麗 浜辺」の頻度の棒グラフが表示されます};