チュートリアルで試せる内容 †
1)作成する処理モジュールの仕様を決めます †
- [モジュール名] NounTop10(名詞TOP10)
- [入力] テキスト情報
- [処理] テキストに含まれる,名詞を頻度が高い順に10個抽出する
- [出力] 名詞の頻度上位10個の頻度を格納した配列
- (a) 可視化モジュールScoreDist で頻度の棒グラフを表示
2)雛形のSample1.java を利用して,モジュール作成の準備をします †
- tetdmのフォルダ内の,moduleフォルダ内のMiningModuleフォルダ内にある,Sample1フォルダを,フォルダごとコピーします
- コピーしてできたフォルダの名前を,作成するモジュール名「NounTop10」に変更します
- コピーして作成したフォルダ内のファイル名を変更します
- Sample1.java -> NounTop10.java
- Sample1.txt -> NounTop10.txt (テキストファイルの中身も「名詞TOP10」に変更します)
- 必要に応じて,モジュール完成後にREADME.txtを修正します
3)NounTop10.java を編集し,プログラム作成の準備をします †
- プログラム中の Sample1 と書かれている箇所をすべて NounTop10 に変更します(コメント内を含め5カ所)
- // NounTop10.java Version 0.30
- package module.MiningModules.NounTop10;
- public class NounTop10 extends MiningModule
- public NounTop10()
- System.out.println("writing ERROR in NounTop10");
コンストラクタの記述の修正 †
- モジュールのIDを決め,コンストラクタ内のメソッド setModuleID の引数として与えます
- 配列 pairingVisualizationID を初期化して,ペアとなる可視化インタフェースモジュールのIDを指定します.
public NounTop10()
{
setModuleID(9911); // Set your module ID after you have got it
pairingVisualizationID = new int[]{4};
setToolType(2);
}
4)一度コンパイルして,NounTop10モジュールの動作を確認します †
- make または ant コマンドでコンパイルします
- コンパイル後TETDMプログラムを起動して,いずれかのテキストを読み込みます
- パネル上部の「ツール選択」ボタンを押した後,左側の「名詞TOP10(Pr)」をダブルクリックして選択します
- 入力テキストが,単語間にスペースが入った状態で表示されていることを確認します(Sample1.java の処理)
5)プログラムの作成に使える入力情報を確認します †
- テキスト情報は,TextData型の変数 text に予め格納されているので,その中の単語情報に関するメンバー変数を確認します
- テキストデータ
- KeywordData keyword[];
- int keywordNumber;
- String word; (KeywordDataクラス内)
- int frequency; (KeywordDataクラス内)
- int partOfSpeech; (KeywordDataクラス内.値が1なら名詞)
6)名詞の頻度上位10個を求めるプログラムを作成します †
int top10frequency[];
- miningOperations メソッドの case 0: が自動的に実行されますので,そこから呼び出されるところに記述します.
- ソートには,source/Utilityフォルダ内のQsort.javaを利用することができます(// import source.Utility.*; のコメントアウトを外して利用します)
void MyMethod()内に作成する場合 †
void MyMethod()
{
int nounID[] = new int[text.keywordNumber];
int frequency[] = new int[text.keywordNumber];
int count;
count = 0;
for(int i=0;i<text.keywordNumber;i++)
if(text.keyword[i].partOfSpeech == 1)
{
frequency[i] = text.keyword[i].frequency;
count++;
}
else
frequency[i] = 0;
Qsort.initializeIndex(nounID, text.keywordNumber);
Qsort.quicksort(frequency, nounID, text.keywordNumber);
if(count > 10)
count = 10;
top10frequency = new int[count];
for(int i=0;i<count;i++)
top10frequency[i] = frequency[i];
}
7)出力を可視化モジュールに渡します †
- 可視化モジュール ScoreDist がsetDataメソッドによって受け取ることができるデータ型とデータ数を,README.txtファイルや,ソースプログラム(コンストラクタ内のdataNumbers[])を見て確認します
- ScoreDist は,int型の配列を1つ(dataIDが0のデータのみ)受け取って,その棒グラフを表示します
case 0:
MyMethod();
resetData();
setDataIntegerArray(top10frequency);
break;
- 可視化モジュールにデータを渡す際に,下記のメソッドにより,dataIDを0に初期化できます.
- resetData();
- dataIDの値は,各データ型ごとに,setData***()メソッドを呼び出すごとに,1ずつ増加していきますので,データを送りなおす場合などに,このメソッドを呼び出す必要があります.
8)コンパイルして動作を確認します †
- 浦島太郎であれば「浦島 リュウグウ 乙姫 太郎 景色 子供 背中 不思議 綺麗 浜辺」の頻度の棒グラフが表示されます