テキストデータのバックアップ(No.12)

テキストデータを扱うためのTextData型クラス †

「マイニング処理モジュール」「可視化インタフェースモジュール」のいずれも，スーパークラスにおいて，TextData 型の参照型インスタンス text に下記データが格納されています．

TextData型 †

変数名	説明
int textID;	テキストのID．現在は，以下の値が設定されます． 0:ファイルから読み込んだテキスト 1:セグメント絞り込みで作成された部分テキスト 2:文絞り込みで作成された部分テキスト
String originalText;	入力テキストの文字列
String sourceFilename;	入力テキストのファイル名(絶対パスつき)
String absolutePath;	TETDMの実行ファイルがあるフォルダへの絶対パス
String defaultCode;	入力テキスト保存時の文字コード
String getSegmentTag();	セグメントの区切り文字(Ver.0.45から)
SegmentData segment[];	セグメントデータ（環境設定／設定ファイル tetdm.conf で指定された文字列「スナリバラフト」を区切りとして分けられる）
int segmentNumber;	セグメント数（SegmentData 型配列 segment[] の要素数）
SentenceData sentence[];	文データ（環境設定／設定ファイル tetdm.conf で指定された句点を区切りとして分けられる）（上記 SegmentData内でインスタンス化した sentence を参照する）
int sentenceNumber;	文の数（SentenceData 型配列 sentence[] の要素数）
int sentenceToSegment[];	添字として与えられた番号の文が属するセグメント番号（ただし先頭の文番号，セグメント番号は0）
KeywordData keyword[];	テキスト内のキーワード（環境設定／設定ファイル tetdm.conf で指定した品詞）に関するデータ
int keywordNumber;	テキスト内のキーワードの種類数（KeywordData 型配列 keyword[] の要素数）
final int maxKeywordNumber=10000;	テキスト内のキーワードの最大種類数（この数値を超えるときにはエラーになります）
RelationalData segmentRelation;	「セグメント」をベクトル，「キーワード」をベクトルの要素とした，ベクトル間の関連度
RelationalData sentenceRelation;	「文」をベクトル，「キーワード」をベクトルの要素とした，ベクトル間の関連度
RelationalData keywordRelationBySegment;	「キーワード」をベクトル，「キーワードが出現するセグメント」をベクトルの要素とした，ベクトル間の関連度
RelationalData keywordRelationBySentence;	「キーワード」をベクトル，「キーワードが出現する文」をベクトルの要素とした，ベクトル間の関連度
Focus focus;	モジュール間連動のためのフォーカス情報を扱うための情報
void setSegmentPartialTextData();	セグメント絞り込み（Focus型のfocusSegments[]で，trueにセットされたセグメント）によるテキストデータの作成．以下，作成されるデータの概要↓ セグメント数：フォーカス中のセグメント数文数：フォーカス中のセグメントに含まれる文の数の合計キーワード数：もとのまま．頻度は再計算される
void setSentencePartialTextData();	文絞り込み（Focus型のfocusSentences[]で，trueにセットされた文）によるテキストデータの作成．以下，作成されるデータの概要↓ セグメント数：もとのまま．文の数が0になることもある文数：フォーカス中の文の数キーワード数：もとのまま．頻度は再計算される

↑

SegmentData型 †

int segmentID;	セグメントのID．セグメント選択の前後で不変．
String segmentText;	セグメントのテキスト
SentenceData sentence[];	セグメント内の文データ
int sentenceNumber;	セグメント内の文の数（SentenceData 型配列 sentence[] の要素数）
int wordNumber;	セグメント内の総単語数
int kindKeywordNumber;	セグメント内のキーワード種類数
int positionOfSegment;	入力テキスト内でのセグメント番号（ただし先頭のセグメント番号は0）
int positionOfFirstSentence;	セグメント内の先頭の文の，入力テキスト内での文番号（ただし先頭の文番号は0）

↑

SentenceData型 †

int sentenceID;	文のID．セグメント選択，文選択の前後で不変．
String sentenceText;	文のテキスト
int keywordIDList[];	文内に出現するキーワードIDのリスト（出現順）（IDは KeywordData型配列 keywords[] の添字を表す）
int keywordNumber;	文内に出現するキーワード数（int 型配列 keywordIDList[] の要素数）
int kindKeywordNumber;	文内のキーワード種類数
String word[];	文内の全単語リスト（出現順）（出現時の活用形）
String wordEndForm[];	文内の全単語リスト（出現順）（終止形）
int wordIDList[];	文内に出現する単語IDのリスト（出現順）（IDは KeywordData型配列 keyword[] の添字を表す）ただし，キーワード以外の単語IDはすべて-1
int wordNumber;	文内の単語数（String 型配列 word[], wordEndForm[], wordIDList[] の要素数）
int positionOfSegment;	文を含むセグメント内での文番号（ただし先頭の文番号は0）
int positionOfSentence;	入力テキスト内での文番号（ただし先頭の文番号は0）
boolean subjectCheck[];	文内の各単語が主語であればtrue，要素数はwordNumber
boolean hasSubject;	文が主語を含んでいればtrue

↑

KeywordData型 †

String word;	キーワードの文字列（活用する単語の場合は終止形）
int partOfSpeech;	キーワードの品詞：1 名詞, 2 動詞, 3　形容詞, 4 接続詞, 5 副詞, 6 感動詞, 7 助詞, 8 助動詞（現在，未知語は扱えません）
int frequency;	キーワードの総頻度
int frequencyInSegment[];	キーワードの各セグメント内での頻度（添字は 0 から始まるセグメント番号）
int sentenceFrequencyInSegment[];	キーワードの各セグメント内での文頻度（添字は 0 から始まるセグメント番号）
int appearingSegment[];	キーワードが出現するセグメント番号のリスト
int appearingSegmentTable[];	添字がキーワードが出現するセグメント番号であれば 1, そうでなければ 0
int segmentFrequency;	セグメント頻度：キーワードが出現するセグメントの数（int 型配列 appearingSegment[] の要素数）
int lastAppearingSegment;	キーワードが最後に出現するセグメント番号
int appearingSentence[];	キーワードが出現する文番号のリスト
int appearingSentenceTable[];	添字がキーワードが出現する文番号であれば 1, そうでなければ 0
int sentenceFrequency;	文頻度：キーワードが出現する文の数（int 型配列 appearingSentence[] の要素数）
int lastAppearingSentence;	キーワードが最後に出現する文番号
int frequencyAsSubject;	キーワードが主語として出現する頻度
int segmentFrequencyAsSubject;	キーワードが主語として出現するセグメント数

↑

RelationalData型 †

String name[];	各ベクトルの名前
int frequency[];	各ベクトルの非ゼロの要素数
int coFrequency[][];	ベクトル間で共通に存在する非ゼロ要素数
double cond[][];	ベクトル間の条件付き確率（各ベクトルの要素は 0 または 1 としたとき）
double cos[][];	ベクトル間のコサイン類似度（各ベクトルの要素は 0 または 1 としたとき）
int number;	ベクトル数（上記各配列，各次元の要素数）

↑

Focus型 †

boolean focusKeywords[];	各キーワードのフォーカスのon, off （添字は 0 から始まるキーワード番号）
boolean focusSegments[];	各セグメントのフォーカスのon, off （添字は 0 から始まるセグメント番号）（trueのセグメントは部分テキストの作成にも用いられます）
boolean focusSentences[];	各文のフォーカスのon, off （添字は 0 から始まる文番号）（trueの文は部分テキストの作成にも用いられます）
int mainFocusKeyword, subFocusKeyword;	あるキーワードのフォーカス（第１，第２）（数値はキーワードID，フォーカスなしなら-1）
int mainFocusSegment, subFocusSegment;	あるセグメントのフォーカス（第１，第２）（数値はセグメント番号，フォーカスなしなら-1）
int mainFocusSentence, subFocusSentence;	ある文のフォーカス（第１，第２）（数値は文番号，フォーカスなしなら-1）
void clear();	セグメント，文，キーワードに関するフォーカス情報の初期化

以下のメソッドは，TextDataに依存しない，統合環境内で共通のフォーカス情報にアクセスするためのものです．
（同じテキストを再度読み込んだり，異なるテキストを読み込んだ後も，初期化されずに値が残ります）

void setMainFocusString(String word) void setSubFocusString(String word) String getMainFocusString() String getSubFocusString()	ある文字列のフォーカス（第１，第２）用変数へのアクセス（フォーカスなしなら""）
void setMainFocusDouble(double value) void setSubFocusDouble(double value) double getMainFocusDouble() double getSubFocusDouble()	ある実数のフォーカス（第１，第２）用変数へのアクセス（フォーカスなしなら0.0）
void setMainFocusInteger(int value) void setSubFocusInteger(int value) int getMainFocusInteger() int getSubFocusInteger()	ある整数のフォーカス（第１，第２）用変数へのアクセス（フォーカスなしなら0）

↑

主語の判定方法 †

形態素解析器ChaSenで「名詞」と判定される単語のうち，次のいずれかの単語の，直前または2単語前，に存在する，直近の名詞1つを主語としています．(バージョン0.39から)
- が助詞-格助詞
- は助詞-係助詞
バージョン0.40から，「未知語」も主語として判定されます．

↑

改行コードの位置についての追記(一部はバージョン0.45から) †

文の区切り記号「句点」の直後にある改行コード1つは，その文のデータの最後に付け加えられます．
- それ以降にある改行コードは，その次の文の先頭に付け加えられます．
セグメントの区切り記号「スナリバラフト」の直前にある空行（前のセグメントの最後の文の句点の次の行以降にある改行コード）は，テキストからカットされ、テキストデータには含まれません．
- 「スナリバラフト」の直前に空行がなければ，入力テキストの行数が保持されます．
「スナリバラフト」の後ろにある改行コードは，次の文の先頭に付け加えられます．

テキストデータ のバックアップ(No.12)

テキストデータを扱うためのTextData型クラス †

TextData型 †

SegmentData型 †

SentenceData型 †

KeywordData型 †

RelationalData型 †

Focus型 †

主語の判定方法 †

改行コードの位置についての追記(一部はバージョン0.45から) †

テキストデータのバックアップ(No.12)