筑波大学文単位評価極性タグ付きコーパス データ仕様書 1.データ名称 筑波大学文単位評価極性タグ付きコーパス(TSUKUBAコーパス)ver.1.0 2.データ概要  楽天トラベルのレビューデータ1,000件(4,309文)に対して、文単位で評価極性情報を付与したコーパス 3.データの作成方針 3.1 情報付与単位 文単位 3.2 作業者数 2名 3.3 文字コード UTF-8 3.4 その他 レビュー対象施設の特定を避けるため、オリジナルの文書IDは公開しない。 4.データ詳細 4.1 データ形式 tsv 形式で以下の情報が格納されている。 - カラム1 行ID(文ID) - カラム2 文書ID - カラム3 文書内でのローカル文ID - カラム4 作業者1の評価ラベル・アノテーション - カラム5 作業者2の評価ラベル・アノテーション - カラム6 文 4.2 評価ラベル(カラム4・5) 評価対象についての評価に関するクラスラベル(6種類) - 褒め:p - 苦情:k - 要求:y - ニュートラル:e - 評価なし:Z - その他/保留:o  注1:同一文に p と k が混合している場合、作業者間で付与方針が異なる。   - 作業者1:下記の複数ラベルを付与   - 作業者2:e or p/k のうち主要な意味となる1つ  注2:作業者1は、同一文に複数の評価が認められるとき、複数のラベルを付与している。   - ラベルは文内での出現順で付与され、同じラベルが連続する場合は1つだけ付与している。   - ただし、複数ラベルを付与する際は「評価無し」を無視する。 例)p + Z -> p 4.3 文への分割ルール (1) 半角・全角スペースを除去する。 (2) 次の記号で分割する。 分割記号:「?」、「?」、「!」、「!」、「。」、「.」、「.」、「♪」、「☆」、「★」、「w」 例外(分割しない場合):  - 分割記号の一つ後ろが助詞であるとき。    例)ちょっと塩味が強すぎるかも?と思いました。  - 全角半角の丸括弧()・カギ括弧「」・二重鍵括弧『』中に分割記号が出現したとき。    例)母は「こんな美味しい料理は久しぶり。」と大満足でした。  - 前後が数字で囲まれた時のピリオドのとき    例)1.5 メートルくらいの幅しか無く、窮屈な思いをしました。 5.データ作成者、権利者および窓口 5.1 データ作成者 筑波大学 システム情報工学研究科 コンピュータサイエンス専攻 自然言語処理 on the Web 研究室 5.2 データ著作権者 筑波大学 システム情報工学研究科 コンピュータサイエンス専攻 自然言語処理 on the Web 研究室 5.3 問い合わせ窓口 楽天株式会社 楽天データ公開事務局(rit-rdr@mail.rakuten.com) 以上