更新予定(バージョン0.54に含められる予定の内容です) †
- 部分テキストを生成したときに,もとのテキスト内のセグメント番号,文番号を参照するための変数を追加しました.
- int originalSegmentNumbers[]; 部分テキスト内のセグメントの,もとのテキスト内でのセグメント番号(ただし先頭のセグメント番号は0)
- int originalSentenceNumbers[]; 部分テキスト内の文の,もとのテキスト内での文番号(ただし先頭の文番号は0)
2013年12月1日: バージョン0.53をアップロードしました †
- Windows において,入力テキストファイルをドラッグ&ドロップでTETDMを起動するためのバッチファイルを追加しました.
- MacでJava7での動作について,バージョン0.51の修正アップロードの内容を追加し,辞書構築時の外部コマンドを修正しました.
- 可視化ツール「OKmap(OKmap:ID=9)」の文字のフォントを変更しました.
- 部分テキストの生成について,段落ベース,文ベースのそれぞれで複数(現在は2つ)の部分テキストを扱える拡張を施しました.
- 可視化ツール「セグメント選択」「文選択」で,生成する部分テキストを2カ所に保存できるように修正しました.
- 統合環境の上部から,部分テキストに関するボタンを削除しました.
- 処理ツール「テキスト二分割(HalfText:ID=25)」を追加しました.
- 可視化ツール「キーワード比較(KeywordCompare:ID=21)」を追加しました.
- 初心者用のチュートリアルを追加しました.
- 統合環境上部に「チュートリアル」ボタンを追加しました.
- メモリを1GB確保して起動する,TETDM1024.jarを追加しました.
- Mac用のファイルをドラッグ&ドロップで起動するためのTETDM.appで,確保するメモリを1GBに設定しました.
2013年10月7日: バージョン0.51を修正アップロードしました †
- MacでJava7をインストールしている場合に,jarファイルのダブルクリックで形態素解析が動作しなかった点を修正しました.
- MacでJava7をインストールしている場合に,コマンドラインからの起動後に,ファイル入力ができなかった点を修正しました.
2013年8月9日: バージョン0.52をアップロードしました †
[辞書再構築可能バージョン(tetdm-0.52)],[辞書再構築なしバージョン(tetdm-0.52nodic)] †
- 「ツール選択」「ツール組合せ選択」「キーワード設定」の各パネルにおいて,「キーワード設定」の最下部でメニューを日本語から英語に変更した際に,表示が英語に変更されるように修正しました.
- ポップアップパネルとして表示中の「ツール選択」パネルにおいては,一度のみ反映されます.
- 拡張子 csv のカンマ区切りデータが,形態素解析器ChaSenが選択されている場合に読み込みが可能だったのを,形態素解析器Igoが選択されている場合に読み込みが可能となるように変更しました.
- csvファイルを読み込む際は,形態素解析は実行されません.
- 「ツール組み合わせ選択」ボタンで表示される,ツール選択パネルにおいて,オプション連動が起こるモジュールの関係を表示するようにしました..
- 可視化ツール「順位線(RankLine:ID=19)」を追加しました.
- 可視化ツール「円グラフ(CircleGraph:ID=20)」を追加しました.
[辞書再構築可能バージョン(tetdm-0.52)] †
- 辞書再構築用の処理ツール「辞書構築(DictionaryCreation:ID=9998)」を追加しました.
- 辞書再構築可能バージョンには,テキストバージョンの辞書が付属するため,統合環境の容量が展開時に58.8MB大きくなります.
2013年8月7日: バージョン0.51を修正アップロードしました †
- 「キーワード設定」で「初期設定に戻す」ボタンを押すと,システムが起動できなくなる不具合がありました.
- ファイル「tetdm.conf.original」の内容が壊れていたためで,すでにダウンロードされた方は再ダウンロードしていただくか,お手持ちの「tetdm.conf」ファイルをコピーした「tetdm.conf.original」ファイルをご作成ください.
2013年6月27日: バージョン0.51をアップロードしました †
- TETDM起動時のツールを変更しました.
- ツール選択パネルにおいて,一部のモジュールでフォーカス情報が正しく表示されないのを修正しました.
- ツール選択パネルにおいて,フォーカスアイコンがパネルの枠をはみ出すのを修正しました.
- build.xmlの内容を更新しました(開発者向け)
- TETDMフォルダ内にlibフォルダを作成しました.
- libフォルダ内に独自のjarファイルをおいて,antによりコンパイルすると作成するjarファイルに含められるようになります.
- Makefileの内容を更新しました(Mac開発者向け)
- フォルダ内に生成される,.DS_Storeファイルを,make後に削除するコマンドを追加しました.
- コメントアウトしていますので,使用する際にコメントアウトを外して下さい.
- 削除対象ファイル(tetdmフォルダ内でコンパイルしたときの相対パス)
- .DS_Store
- */.DS_Store
- */*/.DS_Store
- 任意に使用できるライブラリ,データ表示用クラスにおいて,DisplayObjectクラスに変数(value)を追加し,関連するメソッドの追加とメソッド名の変更を行いました.
- 可視化ツール「スコアネットワーク」を,上記ライブラリを使用するように変更しました.
- 可視化ツール「グラフ」でデータの受け渡し方によってはエラーが出る可能性があったのを修正しました.
2013年5月30日: バージョン0.50をアップロードしました †
- 「ツール組合せ選択」ボタンを,真ん中上部に追加しました.
- 複数のパネルへのモジュール割り当てを行うことができます.
- フォーカス情報による可視化連動とフォーカス情報による処理連動に,Touch(タッチ), Click(クリック) に加えて,Timing(タイミング)による連動処理(case 4503:)を追加しました.
- ツールの「組合せ保存」時に,デフォルト以外の処理ツールと可視化ツールとの組合せが,うまく反映されない場合があったのを修正しました.
- 任意に使用できるライブラリ,データ表示用クラスとして,DisplayObject クラスと,DisplayNetworkクラスを追加しました.
- 可視化ツール「キーワード(展望台)」「セグメント独自性」「ばねモデル」を,上記ライブラリを使用するように変更しました.
- 可視化ツール「関連セグメント(DrawNodes2)」の機能を,可視化ツール「ばねモデル(DrawNodes:ID=1017)」に統合したため,可視化ツール「関連セグメント(DrawNodes2:ID=1018)」を削除しました.
- 処理ツール「トップダウン段落順序(TopDownOrder:ID=24)」「タイピング(TypingControl:ID=20001)」を追加しました.
- 可視化ツール「グラフ(Graph:ID=17)」「段落並び替え(ParagraphChange:ID=18)」「タイピング(Typing:ID=20001)」を追加しました.
- 可視化ツール「分布(ScoreDist)」の名称を「スコア分布(ScoreDistribution)」に変更しました.
2013年4月22日: バージョン0.47をアップロードしました †
- 可視化モジュールのデータ受け取りの仕様を変更し,処理モジュール,可視化モジュール内の関連する記述を変更しました.
- setData メソッドについて
- 返り値の型を boolean 型に変更しました.データの受け取りに成功した場合はtrueを,失敗した場合にはfalseを返すようにして下さい.
- 原則として,0,1,2,の順に,(後述のdataNumbers[]で指定したデータ数-1 までの)dataID の値に対応する case文を記述するように仕様を変更しました.
- 処理モジュールからのデータの,コピーを受け取るように変更しました.(受け取り側でメモリを確保する必要はなく,値を変更してもデータの送り元に影響を与えません)
- 受け取るデータ数の管理について
- 可視化モジュールが,可視化に必要な処理モジュールから受け取るデータ数を,各データ型ごとに予め指定する配列を,可視化モジュールのスーパークラス(VisualizationModule)に追加しました.
- 可視化モジュール作成の際には,この配列の値を初期化して,可視化モジュールのコンストラクタ内に記述して下さい.(必須)
public int dataNumbers[] = {0,0,0,0,0,0,0,0,0,0,0};
- 要素は順番に,boolean,int,double,String,boolean[],int[],double[],String[],boolean[][],int[][],double[][]の各型のデータ数に対応します.
- 処理モジュールから送られるデータについて,各型のデータは,dataNumbersで指定した数を超えて受け取らなくなります.
- 送られた型のデータが,dataNumbersで指定した数値を超える場合,後述のデータ型のコンバートが行われます.
- ただし,処理モジュールが dataIDを用いた setData***() メソッドからデータを送った場合は,必ずデータを受け取ります.
- 統合環境内部でカウントしている受け取ったデータ数の値は必ず増加するため,受け取ったデータ数がリセットされる前に同一のdataIDのデータを繰り返し受け取る場合,他に足りないデータがあっても,受け取ったデータ数がdataNumbersで指定した値に達したとして,データが受け取れない可能性があることに注意して下さい.
- 受け取ったデータがdataNumbersで指定した数に達したか否かを確認できるメソッド boolean checkDataNumbers()を,追加しました.
- 受け取ったデータが指定数に達していない場合には,可視化を行わない,などの判定に用いることができます.
- 受け取ったデータの配列の要素数等が,可視化モジュールが想定する値となっているかの判定を記述するためのメソッド boolean dataConstraint() を,可視化モジュールのスーパークラス(VisualizationModule)に追加しました.
- dataConstraint() メソッドの内容は,開発者がオーバーライドして記述します.
- dataConstraint() メソッドは,checkDataNumbers() メソッド内でも,最後に呼び出しを行います.
- つまり,必要なデータ数がdataNumbersの数値上では全てそろっているときに,さらに配列の大きさが制約を満たしているか等のチェックを行うことを想定しています.
- setData メソッドのcase番号の例外について
- setData() メソッドでは,0,1,2,の順番でない,dataID の値に対応する case番号を使用(併用)することもできます.
- 順番でないcase番号(dataNumbers[]で指定したよりも大きな値)を使用することにより,後述のデータコンバートによるデータの受け取りを避けることができます.
- 順番でないcase番号を利用するためには,処理モジュール側で,同じ番号をデータ送信メソッド setData***()の引数として与える必要があります.
- 処理モジュールのデータ送信の仕様を変更しました.
- setData***() メソッドに,int dataID を引数として必要としないメソッドを追加し,原則この dataID が引数にないメソッドを利用するように仕様を変更しました.
- dataIDが引数にないメソッドでは,同じメソッドを呼び出した回数(0,1,2,…)が,dataIDの値として扱われます.
- 各データ型の setData***() メソッドの呼び出し回数(可視化モジュールの受け取ったデータ数)をリセットするための void resetData() メソッドを,処理モジュールのスーパークラス(MiningModule)に追加しました.
- resetData() メソッドは,可視化モジュールにデータを与え直す(同じモジュールに再度データを送信するor異なる可視化モジュールにデータを与える)際に利用することを想定しています.
- データ型コンバート機能を追加しました.
- 処理モジュールが setData***() メソッドによって,可視化モジュールにデータを送信する際に,送信したデータ型のデータを可視化モジュールが受け取れない場合,別途定めた優先順位に従ってデータ型を変換(コンバート)し,データを再送信します.
- 詳細は,データ型コンバートのページを参照して下さい.
- ツール選択ウインドウで,処理ツールと可視化ツールを組み合わせた際に,可視化ツールがエラーを出す場合,組み合わせる前の状態に戻るようにしました。
- TextDataで,各段落のwordNumberの値が計算されていなかったのを修正しました.
- 処理速度改善のため,一時的に文内共起に基づく単語間関連度(keywordRelationBySentence),ならびに文間関連度(sentenceRelation)の計算を省略しました.
- フォーカス連動用の変数を追加し,以下のアクセス用メソッドをTextData.Focusクラスに追加しました,
- boolean mainFocusBoolean, boolean subFocusBoolean;
- setFocusBooleanArray(boolean[]), boolean[] getFocusBooleanArray(), setFocusIntegerArray(int[]), int[] getFocusIntegerArray(), setFocusDoubleArray(double[]), double[] getFocusDoubleArray(), setFocusStringArray(String[]), String[] getFocusStringArray();
- setFocusBooleanArray2(boolean[][]), boolean[][] getFocusBooleanArray2(), setFocusIntegerArray2(int[][]), int[][] getFocusIntegerArray2(), setFocusDoubleArray2(double[][]), double[][] getFocusDoubleArray2();
- 入力テキストを上書きして保存する,TextDataクラス内のメソッド,fileSaveOnly(), fileSave() を利用した際に,TETDMの実行ファイルがあるフォルダ内にも,ファイル「REVISEDTEXT」をコピーとして作成するようにしました.
- 処理モジュールと可視化モジュールのスーパークラスに,操作ログを保存するためのメソッド void writeActionLog(String) を追加しました.
- メソッド writeActionLog(String) は,システムが起動してからの「時間(秒),Mining/Visualizationの区別,パネルID,モジュールID,引数で与えられた文字列」のデータを,スペース区切りで一行として,TETDMの実行ファイルがあるフォルダ内に,ファイル「ACTIONLOG」として保存します.
- ファイル「ACTIONLOG」は,明示的に消去しない限り,データが追加で書き込まれます.
- データ連動のためのメソッドに,データを生成するためのオプション番号を引数に追加しました.
- boolean型の例)
- boolean getDataBoolean(int getModuleID, int dataID, int optionNumber)
- boolean[] getDataBooleanArray(int getModuleID, int dataID, int optionNumber)
- boolean[][] getDataBooleanArray2(int getModuleID, int dataID, int optionNumber)
- boolean getDataBooleanNew(int getModuleID, int dataID, int optionNumber)
- boolean[] getDataBooleanArrayNew(int getModuleID, int dataID, int optionNumber)
- boolean[][] getDataBooleanArray2New(int getModuleID, int dataID, int optionNumber)
- 処理モジュールと可視化モジュールの組合せの汎用性を表すツールタイプ(1:シンプル2:プリミティブ3:セミプリミティブ4:特殊(デフォルト値))を導入しました.
- ツールタイプ1,2または3に該当する場合,処理モジュールまたは可視化モジュールのコンストラクタ内で,setToolType(int); メソッドにより,ツールタイプを記述するようにしました.
- 処理ツール「再帰的クラスタリング(RClustering(ID=6))」「データ送信テスト(DataTest(ID=7777))」を追加しました.
- 可視化ツール「OKmap(OKmap(ID=9)」を追加しました.
- 形態素解析器「Igo」の結果による未知語(判定結果の品詞は「名詞」で終止形が「*」)が名詞として扱われるようにしました.
- ツールタイプを定義しました
- モジュールのコンストラクタ内において,ツールタイプを指定する,setToolType(int) メソッドを追加しました.
- ツール選択ウインドウにおいて,ツールタイプ「シンプル」「プリミティブ」「セミプリミティブ」に該当するツールには,それぞれ(Si)(Pr)(sP)と表示されるようにしました.いずれの表示もないツールはすべて「特殊ツール」です.
2013年3月13日: バージョン0.46をアップロードしました †
- 形態素解析器「Igo」を同梱し,形態素解析器のインストールなしで,統合環境を利用することができるようになりました.
- 「キーワード設定」内で形態素解析器,IgoとChaSenを切り替えることができます.
- 統合環境のボタン類を別ウインドウにし,ディスプレイの上部に表示されるように変更しました.
- バージョン0.45で、パネルの追加後、追加した直後のツール未選択パネル内の「削除」ボタンを押すとエラーが出るのを修正しました。
- ツール未選択パネルで「ツール選択」ボタンを押してツール選択ウインドウを起動した時に,処理ツールが未選択の状態になるように変更しました.
- 各パネルの上部に,パネル内のツールのみを再実行する「再実行」ボタンを追加しました.
- 「キーワード設定」ボタンを押して起動する,キーワード設定ウインドウ内のレイアウトを変更しました.
- キーワードとして扱える品詞に「連体詞」を追加しました.
- キーワード設定ウインドウ内で,キーワードとして扱う品詞,文の区切りとしての句点,を選択的に指定できるチェックボックスを追加しました.
- キーワード設定ウインドウ内で,任意の単語をセグメントの区切りとして,指定できるようになりました.
- キーワード設定ウインドウ内で,セグメントの区切り単語をテキスト内に、「残す」「残さない」の選択ができるようになりました。
- データ連動時の,ステルスパネルの初期化時に,初期化処理が足りずエラーが出る点を修正しました.
- 環境設定ファイル(tetdm.conf)のフォーマットを変更しました.
- 必ず,バージョン0.46用のものをご使用ください.
2013年2月19日: バージョン0.45をアップロードしました †
- パネル選択ウインドウの起動時に,パネルにセットされている処理ツールが選択されている状態になるように変更しました.
- 各パネルごとに,部分テキスト(フォーカスされているセグメントや文)を対象として処理を実行する「段」「文」のボタンを,
各パネル上部に追加しました.
- 統合環境下部にあるボタンと機能は同じ(切り替わる範囲が異なります)で,ボタン同士は連動しています.
- 可視化ツール「セグメント選択」「文選択」などと組み合わせて,お使いください.
- 「段」「文」のボタンを押したときに,部分テキスト用のデータが生成されます.
- セグメントや文の選択後に,「段」「文」ボタンを押す必要があります
- TextDataクラスに、メソッド、String getSegmentTag()とString getSentenceTag()を追加しました。
- 文やセグメントの区切り記号を取得して、テキスト内に挿入することなどができます。
- ツールのREADME.txtが用意されていない場合に、エラーが出て起動しなかったのを修正しました。
- 処理ツール「twitter(TweetExtraction(ID=20))」において、検索したツイートの区切りが、セグメントの区切り記号となるように変更しました。
- 処理ツール「エディタ(EditModule(ID=1))」に以下の機能を追加しました.
- 改行があるところに、句点を挿入します。(空の文は作成しません)
- 空行があるところに、セグメントの区切り記号を挿入します。(空のセグメントは作成しません)
- セグメントの区切り記号を消去します。
- 可視化ツール「セグメント選択(SegmentSelect(ID=1100))」「文選択(SentenceSelect(ID=1101))」「キーワード選択(KeywordSelect(ID=1102))」の表示内容,機能を更新しました.
- いずれも処理ツールから値を受け取ることで,表示順を変更することが出来ます.
- キーワード選択は, IDを9から1102に変更しました.
- 旧バージョンの環境設定ファイル(tetdm.conf)を使用すると不具合が生じる可能性がありますのでご注意ください.
2013年2月6日: バージョン0.44をアップロードしました †
- 各パネルでのツール選択のために「ツール選択」ボタンを追加しました。
- 従来の、ツール選択用メニューを廃止しました。
- 環境設定の「ツール設定」ボタンを廃止しました。
- ツール選択ウインドウ内で,各ツールの説明を一行で表示するようにしました。
- 処理ツール「ソース表示(SourceRead(ID=99999))」の以下の内容を修正しました.
- READMEの冒頭に,20-50字の説明を入れるように促すコメントを追加しました.
2013年1月8日: バージョン0.43をアップロードしました †
- 各ツールの使い方を表示する「説明」ボタンを,各パネルの上部に追加しました.
- 各パネル内で用いられている処理ツールと可視化ツールのReadme.txtの内容を表示するようにしました.
- Readme.txtのフォーマットを改訂し,すべてのツールのReadme.txtの内容を修正しました.
- Readme.txtの作成には、処理ツール「ソース表示(SourceRead(ID=99999))」を用いてください.
- 入力テキストの文字コードが,環境によらず,Shift-JIS, EUC のいずれでも入力可能になりました.
- 現在もutf-8は使えません.文字コードをShift-JIS, EUC のいずれかに変換してから入力してください.
- WindowsではShift-JIS版、それ以外ではEUC版のChaSenがインストールされていることが動作条件となります.
- 処理ツール側のsetDataメソッドを、以下の引数の型に応じたメソッド名に変更しました.
- public final void setDataBoolean(int dataID, boolean data)
- public final void setDataInteger(int dataID, int data)
- public final void setDataDouble(int dataID, double data)
- public final void setDataString(int dataID, String data)
- public final void setDataBooleanArray(int dataID, boolean data[])
- public final void setDataIntegerArray(int dataID, int data[])
- public final void setDataDoubleArray(int dataID, double data[])
- public final void setDataStringArray(int dataID, String data[])
- public final void setDataBooleanArray2(int dataID, boolean data[][])
- public final void setDataIntegerArray2(int dataID, int data[][])
- public final void setDataDoubleArray2(int dataID, double data[][])
- 可視化ツール側のsetDataメソッドは、そのままです。
- 関連する処理ツールのソースを修正しました.
- 処理ツール間の連携の際に用いられるメソッド getDataBooleanNew などの getData***Newメソッドの名称を,getNewDataBoolean など getNewData***に変更しました.
- 処理ツール「ソース表示(SourceRead(ID=99999))」の以下の内容を修正しました.
- README作成用に表示内容を更新
- 処理ツール側のsetDataメソッド名の変更に伴う修正
- メソッド抽出用の文字列にスペルミスがあったのを修正
- 抽出対象メソッドの追加
- メソッド名 getData***New を getNewData*** に変更したことに伴う修正
- 「環境設定」を「キーワード設定」と「ツール設定」の二つに分け,「環境設定」ボタンを削除,「キーワード設定」と「ツール設定」ボタンを追加しました.
- それぞれのボタンを押した際に,設定画面が別ウインドウで立ち上がるようにしました.
- 統合環境の画面で確認しながら設定変更ができるようになりました.
- 統合環境内のボタンのレイアウトと表示を変更しました.
- 処理ツール「主題語含有率(TopicDistribution)(ID=23)」を追加しました.
- 処理ツール RadarChartTest(レーダーチャートテスト, ID=10111)を削除しました.
2012年12月5日: バージョン0.42をアップロードしました †
- フォーカス連動用の変数,mainFocusString, subFocusString, mainFocusDouble, subFocusDouble, mainFocusInteger, subFocusInteger の6つが,TextDataの再読み込み時に初期化されるようになっていたのを修正しました.
- 上記修正に伴って,処理モジュール Twitter で,twitterからテキストを取得して再処理の後,Checkボタンで検索語がハイライトされなかったのが修正されました.
- 統合環境の出力全体を画像として保存する「画像保存」ボタンを追加しました.
- 処理ツール RadarChartTest(レーダーチャートテスト, ID=10111)を追加しました.
- 可視化ツール RaderChart(レーダーチャート, ID=16)を追加しました.
2012年11月5日: バージョン0.41をアップロードしました †
- 複数のパネルを利用する際、各パネルごとの横幅を保存できるようにしました。
- 統合環境下部の「組合せ保存」ボタンを押したときに保存されます。
- この変更に伴い設定ファイルのフォーマットを変更したため、バージョン0.40以前の設定ファイルは使えません。
- すべてのパネルの横幅を同じにする「均等化」ボタンを、統合環境下部に追加しました。
- セグメント数が0の時に、可視化モジュール FlowPanel, 処理モジュール MakeLight でエラーが出ていたのを修正しました。
- 「.」全角ピリオドが数字の後にあった場合などで,形態素解析の結果が「句点」ではなく「名詞」と判定される場合,そのテキストが入力できない可能性があったのを修正しました.
2012年10月5日: バージョン0.40をアップロードしました †
- SegmentDataに変数segmentIDを追加しました(元テキストの0から始まるセグメント番号)
- SentenceDataに変数sentenceIDを追加しました(元テキストの0から始まる文番号)
- TextData,処理モジュール RelationCheck, FocusCheck,可視化モジュール FocusDisplay,において,セグメント番号や文番号を表示する際に,segmentID と sentenceIDを用いるように修正しました.
- 処理モジュール TextInfo のデータ連動の方法を一部修正しました.
- 処理モジュール MakeLabel の,テキスト中にない単語の処理を一部修正しました.
- 可視化モジュール セグメント選択(SegmentSelect,ID=1100),文選択(SentenceSelect,ID=1101)を追加しました.
- 任意の処理モジュールと組み合わせ可能です.
- セグメントや文を簡単に絞り込むために用いられます.
- 環境設定でチェックが入っていないモジュールを「パネルセット」によってセットした後,「パネル組合せ保存」しても、再起動後に組み合わせが反映されない不具合を修正しました.
- 文のデータ(sentenceText ならびに文内の単語リスト)において、句点の次に改行がある場合、その改行までを一文として扱うように変更しました.
- 「セグメント絞り込み」ボタンと、「文絞り込み」ボタンをパネル上部から、統合環境の下部に移動し、全パネル同時に切り替わるように変更しました.
- 「追加テキスト読込」ボタンを、統合環境下部から削除しました。
- これらに伴い、統合環境下部のボタンレイアウトを変更しました。
- 一部,主語抽出が適切に行えていなかったバグを修正しました.
- 主語抽出の際に,「未知語」も主語の対象に加えるようにしました.
- 処理モジュール Panoramic, 可視化インタフェース DrawOriginal の細かいバグを修正しました.
2012年9月26日: バージョン0.39をアップロードしました †
- フォーカス情報の初期化用のメソッドを,TextData内に設定し,公開しました.
- void clear(); フォーカス情報の全初期化
- 文の主語に関する情報を扱う変数を用意しました.詳細は->テキストデータ.
- 文の主語を可視化するための処理モジュール「主語抽出」を追加しました.
- 処理モジュール「テキスト分析」の表示内容を更新しました.
- テキストデータの一部のセグメントや一部の文のみを対象に,ツールを利用するためのデータ構造をTextData内に追加しました.
- void setSegmentPartialTextData(); セグメント絞り込み(Focus型のfocusSegments[]で,trueにセットされたセグメント)によるテキストデータの作成
- void setSentencePartialTextData(); 文絞り込み(Focus型のfocusSentences[]で,trueにセットされた文)によるテキストデータの作成
- セグメント絞り込みによるテキストデータを用いた処理結果との切り替えを行う「セグメント絞り込み」ボタン,
ならびに文絞り込みによる結果との切り替えを行う「文絞り込み」ボタンをパネル上部に追加しました.
- TextDataに、変数textIDを追加しました
- 処理結果のデータベースにtextIDを追加しました
- データ連動においてtextIDを確認する処理を追加しました
2012年8月23日: バージョン0.38をアップロードしました †
- 各パネルの出力内容を画像ファイルとして保存できる「画像保存」ボタンを追加しました.
- バージョン0.38でメニューを英語にしたときにバグが発生するのを修正しました(2012/8/27更新)
2012年7月24日: バージョン0.37をアップロードしました †
- 「セット」等のボタンのアイコンを変更し,パネルの上部に移動しました.
- 「セット」ボタンを押した際に,そのまま残して欲しいパネルを指定する「キープ」ボタンを追加しました.
- モジュールの組合せの指定?方法を変更しました.
- 変更に伴い,スーパークラス内に,additionalPanelSet()メソッド,ならびに関連するオプション連動用の以下のメソッドを追加しました.
- executeModule( int moduleID, int optionNumber )
- executeModuleFirst( int moduleID, int optionNumber )
- 変更に伴って,以下のメソッドを廃止ししました.
- insideOfActionPerformed(e)
- insideOfActionPerformedShort(e)
- これらの変更に伴って,関連するモジュールの記述を修正しました.
- 特殊処理ツール SourceRead(ソース表示)を追加しました.(入力テキストがない状態でも利用できます)
- 各モジュールのソースコードを表示,モジュールの実装に必要なメソッドの抽出表示,README.txt作成のための必要情報の自動抽出などの機能があります.
- 処理ツール FocusCheck のハイライト方法を変更し,ハイライト表示がなされないのを修正しました.
- 処理ツール Panoramic 要約(展望台) で,報知的要約,結論文抽出の機能を実装しました.
- 可視化ツール KeywordSelect(キーワード選択)を追加しました.(処理ツール MakeLight(光と影)で使用しています)
- 処理ツール MakeScore(スコア計算)を追加しました.
- 可視化ツール ScoreNetwork (スコアネットワーク)を追加しました.
2012年7月6日: バージョン0.36をアップロードしました †
- Macで使用する際,ChaSenをMacPortsからインストールした際のパス/opt/local/bin/chasenが,パスの設定なしで利用可能になりました.(環境設定に書かれたパスにコマンドが存在しないことが条件.環境設定でパスの設定をした場合,設定したパスが優先))
- モジュール間のデータの受け渡しについて,int 型 および double 型 の2次元配列を含めました.
- モジュール間のデータの受け渡しについて,boolean 型.boolean 型の1次元配列 および 2次元配列を含めました.
- MiningModule クラスに追加された,以下のメソッドを利用してデータの受け渡しを行えます.
- setData(int dataID, int data[][])
- setData(int dataID, double data[][])
- int[][] getDataIntegerArray2(int getModuleID, int dataID)
- double[][] getDataDoubleArray2(int getModuleID, int dataID)
- int[][] getDataIntegerArray2New(int getModuleID, int dataID)
- double[][] getDataDoubleArray2New(int getModuleID, int dataID)
- setData(int dataID, boolean data)
- setData(int dataID, boolean data[])
- setData(int dataID, boolean data[][])
- boolean getDataBoolean(int getModuleID, int dataID)
- boolean[] getDataBooleanArray(int getModuleID, int dataID)
- boolean[][] getDataBooleanArray2(int getModuleID, int dataID)
- boolean getDataBooleanNew(int getModuleID, int dataID)
- boolean[] getDataBooleanArrayNew(int getModuleID, int dataID)
- boolean[][] getDataBooleanArray2New(int getModuleID, int dataID)
- データを受け取る可視化モジュールでは,VisualizationModule クラスの以下のメソッドをオーバーライドして使用して下さい.
- setData(int dataID, int data[][])
- setData(int dataID, double data[][])
- setData(int dataID, boolean data)
- setData(int dataID, boolean data[])
- setData(int dataID, boolean data[][])
- 入力テキストの再読み込みをする text.fileLoad() メソッドを,TextDataクラスに追加しました.
- 処理ツール EditModule(エディタ)の「元テキスト」ボタンで入力テキストの再読み込みをするように変更しました.
- 可視化ツール TextDisplay で,文字型配列を受け取って表示できるように変更しました.
- 可視化ツール ScoreDist で,整数型配列を受け取れるように変更しました
- source/Utility内の,ユーティリティプログラムQsort.java に整数用のquicksortを追加しました.
2012年6月8日: バージョン0.35をアップロードしました †
- 統合環境の細かい表示の変更を行いました
- 可視化ツール FileDisplay(ID=5)を追加しました(処理ツールが指定したファイルの内容を表示する)
- 処理ツール WordExtraction, WordReplace が FileDisplay を利用して,文字列の抽出と置換が可能になりました.
- 可視化ツール TextHtmlDisplay: cssを利用してフォントをゴシック体に変更.統合環境のフォントサイズ変更にも対応するようになりました.
- 可視化ツール FlowPanel:統合環境のフォントサイズ変更にも対応するようになりました.
- 処理ツール PaperCheck, RelationCheck: 文字をハイライトする際の表示方法を変更しました.
2012年5月14日: バージョン0.34をアップロードしました †
- 入力ファイルなしでも空テキスト(textフォルダ以内のempty.txt)を読み込んで起動するように,仕様を変更しました.
- これに伴って,入力ファイルなしで起動したときに表示されていたガイダンスパネルを廃止しました.
- ツール選択ボタンを廃止しました.かわりに,ツール選択用のメニューをパネルの上部に追加しました.
- フォーカス連動用の変数,mainFocusString, subFocusString, mainFocusDouble, subFocusDouble, mainFocusInteger, subFocusInteger の6つを,TextDataクラスから統合環境内のクラスに移動し,これら変数へのアクセスはTextDataクラス内のメソッドを利用する方法に変更しました.
- これに伴って,これらを利用していた処理ツール,Dictionary, TweetExtraction, を更新しました.
- これにより,mainFocusString, subFocusString などの変数の値は、 TextDataが更新されても統合環境内に情報が残ります.
- TextDataクラスの,fileSaveメソッドを,テキストの保存と同時に統合環境内で選択中のパネルの表示を更新するように仕様を変更 しました.
- 関連して,処理ツール TweetExtractionでは,検索と同時に検索結果を入力テキストとして保存して、統合環境内で選択中のパネルの表示を更新するようになりました.
- (バージョン0.34では,起動後右のパネルにセットされており,下部の検索フォームに適当な単語を入力してリターンキーで検索して動作させることができます)
- 文の数またはキーワード数が0の場合に,統合環境や下記モジュールがエラーを出力していた箇所を修正しました.
- 空のテキストを入力した場合,セグメント数1,文の数0,キーワード数0となります.
- 統合環境内の TextData クラスを修正しました.
- 可視化ツールの ScoreDist, DrawNode2, DrawOriginal, DrawTree を修正しました.
- ツール作成時のチェック用に,第1セグメント,および第2セグメントの先頭の文が空の浦島太郎のテキスト,TESTurashimaeuc.txt, TESTurashimasjis.txt を textフォルダに追加しました.
- 最初の入力テキストと異なる入力テキストを読み込んだ場合,即座にパネル上部のファイル名が正しく表示されなかったのを修正しました.
- パネル数を追加したときに表示される「ツール未選択パネル」にパネル削除用のボタンを追加しました.
2012年3月27日: バージョン0.33をアップロードしました †
- フォーカス連動(処理連動)の仕様において,連動時に実行される内容を,miningOperations の case 0: から,Touchの場合 case 4501: に, Clickの場合 case 4502: とするように変更しました
- フォーカス連動(可視化連動)の仕様において,連動時に実行される内容を,displayOperations の case 0: から Touchの場合 case 4501: に, Clickの場合 case 4502: とするように変更しました
- フォーカス連動(可視化連動)の仕様において,実行フラグ focusTouchDisplay および focusClickDisplay を廃止しました
- 自動実行メソッドの名前を変更しました.
- マイニング処理モジュール: initializeOperationPanel() -> initializePanel()
- マイニング処理モジュール: selectedFirstTime() -> initializeData()
- 可視化インタフェースモジュール: setVisualizationPanel() -> initializePanel()
- これら上記の仕様変更に伴って,すべてのモジュールの記述を修正しました
2012年3月13日: バージョン0.32をアップロードしました † †
- 廃止したsetDisplay()メソッドが,統合環境や,モジュール内で使われていたのを修正しました.
- 拡張子 csv の,カンマ区切りデータを読み込み可能にしました. サンプルデータは,dataeuc.csv または datasjis.csv です.
- ,(半角カンマ)を単語の区切りとします
- 形態素解析を実行せず,すべてのカンマで区切られたデータをキーワードとします
- 改行を一文の終わりとし,。(句点)を自動的に挿入します
- セグメントの区切りを与える場合,日本語で従来通り「スナリバラフト」と書いて下さい
- すべてのデータ(キーワード)は,一般名詞(形態素解析の結果では,「名詞-一般」)として扱います
- 初期状態では,ひらがなの単語や1文字の単語が除かれる設定になっていますのでご注意ください
- このオプションは,テキストマイニングではなくデータマイニングとしての応用可能性を広げることを目的としていますが,当面は積極的なサポートは行いません
バージョン0.32の修正項目追記 †
- テキストデータの再読み込み時に,データ連動用のデータベースをリセットする処理を追加しました
- フォーカス連動のための変数,mainFocusString, subFocusString, mainFocusDouble, subFocusDouble, mainFocusInteger, subFocusInteger を追加しました
2012年3月1日: ツールを追加しました †
- 処理ツール「国語辞書」
- 可視化ツール「デュアルテキスト」
2012年2月21日: バージョン0.31をアップロードしました †
- モジュール作成の際の仕様を変更しました.
- 詳細は更新されましたツール(モジュール)の作り方内のWebページをご覧下さい.
- <仕様変更点の概要>
- 処理モジュールと可視化モジュールで,これまで8ステップあった起動時の処理を6ステップにまとめ,実装しやすくしました.
- 処理モジュール
- MiningModuleクラス内の,visualization変数をprivate化しました.
- これに伴って,これまでの,visualization.setData, visualization.setDisplay, visualization.displayOptions メソッドは, MiningModuleクラス内で再定義された setData, setDisplay, displayOperations に置き換えられました.
- createInitialData メソッド,ならびに,setInitialData メソッドを廃止しました. 代わりに,miningOperationsのcase 0: において同等の内容(処理+データ生成)を実装してください.
miningOperations(int optionNumber)は実装必須です(使えるオプション番号に,制限はありません)
miningOperations(int optionNumber){
switch(optionNumber){
case 0:
//初期化処理
break;
}
}
- すべての(処理+データ生成)は,miningOperationsのcase分岐から呼び出すこととしました. (setData メソッドは,miningOperations メソッド内から呼び出すようにして下さい)
- 処理モジュールが想定するパネル構成にセットする「▲セット」ボタン, セットボタンを押す前のパネル構成に戻す「▼戻る」ボタン, パネルを削除する「×削除」ボタンを追加
- 可視化モジュール
- setData(void) メソッドを廃止しました(自動実行4に統合) 初期化はすべて,これまでの,initializeData() 内に記述して下さい.
- setDisplay() メソッドを廃止しました. 代わりに,displayOperationsのcase 0: において同等の内容を実装することとしました.
- displayOperations(int optionNumber)は実装必須です(使えるオプション番号に,制限はありません)
displayOperations(int optionNumber){
switch(optionNumber){
case 0:
//初期化処理
break;
}
}
- すべての(可視化処理)は,displayOperationsのcase分岐から呼び出すこととしました.
- setData(int dataID ***) メソッドのオプション番号に,制限はありません
- その他の変更点
- オプションによる可視化連動の仕様を作成し実装しました
- オプションによる処理連動の仕様を作成し実装しました
- データ取得による処理連動を作成し実装しました
- 全モジュールを新仕様向けに修正
- マイニングモジュール:フォーカスチェック(FocusCheck)を追加
- マイニングモジュール:テキスト分析(TextInfo)を追加
- フォーカス連動で,デフォルトですべてのモジュールが連動していたのを,フォーカス連動の仕様変更により修正
- 「パネル組合せ保存」において,同一処理モジュールを複数のパネルにセットして,それぞれが異なる可視化パネルを選択していた場合,うまく保存されないバグを修正
- 「環境設定」から戻ったとき,選択していたモジュールがなくなったときの処理を修正
- 可視化モジュールの初期化時のパネルサイズを,ウインドウサイズをもとに計算して与えるように修正
- パネル初期化時の環境側の処理の見直しと修正(若干軽量化)
- パネル初期化時のパネル割り当て方法の変更(若干軽量化)
- ボタン表示などの日本語化の仕様で,日本語判定メソッドを text.isMenuInJapanese() から isMenuInJapanese() に変更
- boolean のフラグ focusExecute と focusDisplay を細分化し,focusTouchExecute, focusClickExecute, focusTouchDisplay, focusClickDisplay に置き換えました.
- フォーカス実行時の executeAll を executeAllByTouch と executeAllByClick に,repaintOthers を repaintOthersByTouch と repaintOthersByClick に置き換えました.
- フォーカス実行時用に, executeOthersByTouch と executeOthersByClick を作成しました.
- パネル未選択時のパネルを追加
- 統合環境全体の背景色を白にして,選ばれているモジュールを表示するタイトルボーダーの色を変更
- jarファイルのダブルクリックからの起動時に,機能するボタンのみ押すことができるようにしました.
- jarファイルのダブルクリックからの起動時に,環境設定を行えるようにしました.
- 各パネルをJSplitPane上に配置するように変更しました(パネル間のボーダーを移動できます).
- マイニングモジュール:単語抽出(WordExtraction)を追加
- マイニングモジュール:単語置換(WordReplace)を追加
- マイニングモジュール:Twitter(TweetExtraction)を追加
- 可視化モジュール:TextDisplay2をバージョンアップし,TextDisplayColorと改名
2012年1月16日: バージョン0.24をアップロードしました †
- メモリを512MB確保して起動するTETDM512.jarファイルの追加
- 「フォルダ読込」によりフォルダ内のテキスト集合を読み込む機能の追加
- 「フォルダ読込」テスト用サンプルフォルダ「sampletexts」の追加
- 添付モジュール群のアップデート(可視化モジュール1個)
- 環境設定のボタンの背景色追加
2012年1月6日: バージョン0.23をアップロードしました †
- パネル生成時のデフォルトモジュールの選び方を変更
- 添付モジュール群のアップデート(処理モジュール10個,可視化モジュール2個)
- サンプルテキスト「山椒大夫」を追加
- Mac用ドロップレットのメモリを512MBに設定
過去のお知らせ †
- 2011年12月21日: 誤って一部のモジュールの古いバージョンがアップロードされていた時間帯がありました.
- 2011年12月20日: 現時点で不要な処理のコメントアウト,[可視化ツール]TextFocusDisplay内のバグ修正
- 2011年12月20日: 誤ってバージョン0.21がアップロードされていた時間帯がありました.