研究テーマ

研究の概要

概要

日本語や英語のような、人間の言語を機械が理解・処理するための技術を研究しています。

自然言語処理には様々なアプローチがありますが、私たちのグループでは、特許文や新聞記事などの大量のテキストデータから様々なルール・情報を自動獲得する、統計的手法を利用しています。

人間の知識の多くは人間の「言語」で記述されています。もし、機械が人間の言語を理解・処理できれば、機械が人間の知識の大部分にアクセス可能となり、人間の知的作業をサポート出来るようになります。

応用例

Web/Blog からの意見抽出Web ページのコンテンツ特定統計的機械翻訳推薦システム(レコメンドエンジン)次世代ウェブ検索エンジン、スニペット生成・自動要約、チャットボット(対話生成)、日本語スペルチェッカ、対訳辞書自動抽出、テキストマイニング、知識抽出

Web/Blog からの意見抽出 応用

こめ寅

Web や Blog 上のテキストから、人々の意見を自動的に抽出、整理する技術を研究しています。特に、意見をポジティブな意見か/ネガティブな意見かに分類する、評判分析と言われる応用に関する基盤技術の研究を行なっています。

まず、もっとも基本的な処理として、ポジティブ意見/ネガティブ意見を表す単語リストを自動的に生成する手法について研究しています。

  • 良い, 優しい, ... :ポジティブ
  • 悪い, 難しい, ... :ネガティブ

次の課題として、上記の単語リストに含まれない単語の中には、同じ単語であっても文脈によってポジティブ/ネガティブが変化するものがしばしばあります。私達は、文の構造や隠れた文脈を適切にモデル化することによって、より正確に意見を分類する手法について研究しています。

  • 薄い:薄型テレビの文脈ではポジティブ/小説の文脈ではネガティブ

また、学生主体の開発型プロジェクトでは、これらの研究成果を応用し、BBS のコメントに自動的に表情アイコンを付与し、同時に機械翻訳も行う Google ガジェット「こめ寅」を開発しました。

Web ページのコンテンツ特定 応用

ポスト/コメントの分離抽出

近年のウェブページの増加は、CMS の普及に一因があります。CMS は、設定したページテンプレートに基づきウェブページを生成するため、誰でも簡単に大量のページを作成することができます。反面、各ウェブページにメニューや著作権表示が必ず付加されるようになり、ページに占める主要部分は縮小しています。

ページに占める主要部分が縮小していますが、ウェブページの検索システム、携帯電話向けのウェブページ変換システム、コンテンツフィルタリングシステム、また、研究へのウェブページ利用などは、ウェブページの主要部分を必要としています。

ウェブページから主要部分を特定する最も簡単な方法は、人手によりページ毎に正規表現で抽出ルールを作成する事です。しかし、無限にあるウェブページのルールを作成する事は、非常に困難であるため、人間がルールを準備せずとも主要部分を特定する方法を研究しています。

統計的機械翻訳 応用

統計的機械翻訳

機械翻訳の研究が始まって約60年が経過していますが、人間の翻訳能力にはまだまだ到達していません。しかし、最近、研究レベルで一つのブレークスルーがあり劇的な性能向上が期待されています。それは、従来の人手で一つ一つ翻訳ルールをプログラムしていく方法とはまったく異なり、大規模な対訳例(100万文~1億文)から計算機が自動的に翻訳ルールを学習する手法です。利用できる言語データの爆発的増大(Webなど)と計算機パワーの飛躍的な向上によって最近になってやっと可能となってきました。

私たちのグループでは、300万文以上の英日対訳データや100億単語の言語データを用いながら、この先端技術を研究しています。具体的な研究テーマは以下の3つに分かれます。

  • 統計的翻訳モデルの研究:より正しい翻訳に高い確率を付与できるモデルの研究
  • 統計的言語モデルの研究:より言語として正しいものに高い確率を付与できるモデルの研究
  • デコーダの研究:膨大な探索空間から正しい解をより正確・高速に探索する手法の研究

また、機械翻訳のウェブ応用として謎のニコニコ翻訳プロジェクト(徳永先生と共同研究)もありますので、ご興味のある方はぜひどうぞ。

推薦システム(レコメンドエンジン) 応用

Wikipedia

アマゾンなどで使われている推薦エンジンを作成するには大きく2つのアプローチがあります。

1つはよく使われる、いわゆる「協調フィルタリング」と呼ばれる手法で他の似たユーザの利用・購入情報を利用して推薦する手法です。ただし、この手法は似たユーザがいない場合やまったく新しい対象を推薦することができません。これを補うものが、もう1つの「内容に基づくフィルタリング」と呼ばれている手法で、該当ユーザのこれまでの嗜好から似た内容の対象を探して推薦します。

この手法はまったく新しい対象に対しても適用できるが精度はあまり高くありません。本研究ではこの2つの手法を融合して推薦する統計的モデルを提案しています。例として、Wikipedia の編集履歴情報を利用して Wikipedia をガイドする(次に見るべき項目を推薦する)システムを想定し、このシステムで効果的に推薦できることを示しました。

(これは理論だけで、実際に Wikipedia をガイドするシステムは実現していません。どなたか我々の理論を実際に Wikipedia 上で動作させることに興味はないですか?)

次世代ウェブ検索エンジン

日本語に対する情報検索エンジンアルゴリズムに関する学術的なコンテストは、1999年のIREX(Information Retrieval and Extraction Exercise)が最初です。このとき、私たちのチーム(筑波大・豊橋技術科学大学・AT&Tベル研の混成)は Suffix Array を利用して、適応型の任意長 ngram マッチングを動的計画法で実現するという型破りなアルゴリズムで、参加大学中の最高性能をマークしました。

2005年度の卒業研究では、古典的なベクター・スペースモデルに代わる有望なモデルとして確率的な検索モデルを研究しました。数学的にやや難しいですが、数学的に簡単な高性能検索モデルなどありえないので、ここらへん野心のある学生はぜひどうぞ。

日本語スペルチェッカ 応用

スペルチェッカ

日本語ではかな漢字変換時の誤り(すなわち同音異表記の誤り)が多いです。上記の話題・文脈モデルを使って日本語のスペルチェック能力を高めることができます。

文脈を考慮しなくても「実行的な方法を実効する」の誤りを発見できますが、「その引き方はものすごい」の誤り(「弾き」もありえる)を発見することは困難です。後者の場合、広い文脈を見て話題が音楽であれば誤りであり、話題が運動会ならばおそらく正しいと考えられます。

誤り発見のための情報として、局所的にはマルコフモデル、大域的には文脈モデルを組み合わせたシステムを開発しました。

Web/Blog を利用した情報抽出、知識獲得 基礎

ろぼくん

Web や Blog には、上記の意見情報以外にも、さまざまな内容が書き込まれます。特に、日記風テキストと言われる Blog には、人々の日常生活情報が溢れており、このことに注目すると、人間がもつ常識的な知識をテキストから自動的に抽出することを通して、機械(ロボット)に知能を実装できるかも知れません。

知識獲得のケーススタディとして、私達は、イベントが起こる時間に関する知識を自動獲得する研究を行なっています。この研究によって、例えば、「花火」と言えば夜のイベントであり、「通勤」と言えば朝のイベントであることを機械が自動的に判定します。

また、2つのイベント間に因果関係があるかどうかを判定する数理モデルについての基礎研究を行なっています。この研究によって、例えば、「車が反対車線にはみ出すと、それによって交通事故が発生する危険がある」ことなどを機械が自動的に判定します。

話題・文脈の確率モデル 基礎

トピック

文の意味は文脈や話題によって大きく変化します。そこで、文脈や話題を確率的に捕らえるモデルの研究が進められています。

この文脈処理技術の追求が、現時点における私たちのグループの理論的な面での中心テーマです。文脈処理技術は汎用的なので、様々な応用(機械翻訳, 音声認識, スペルチェッカ等)に適用可能で、その応用システムの性能を高めることができます。

具体的には例えば「混合ディリクレ分布」という確率分布を用いて、文書の話題をモデル化します。この理論によって、機械翻訳や音声認識で使われる基本技術の一つである「統計的言語モデル」の性能を飛躍的に上げることができます。

Suffix Array(接尾辞配列) 基礎

Suffix Array(接尾辞配列)

Suffix Array はテキストデータ中の全接尾辞(suffix)をソートしたものです。Suffix Tree でできるほとんどのことが比較的小さな空間(メモリ)でできるため、1991年の U.Manber & G.Meyers の発表以来、絶大なる人気を誇っています。

私たちのグループでは、AT&T と共同で、全テキストデータベース中の全部分文字列(データベースの大きさの二乗に比例する数の部分文字列が存在します)の tf(term frequency)と df(document frequency)を、Suffix Array を利用することで線形時間で計算するアルゴリズムを開発しました。二乗に比例する数の文字列が存在するのに、線形時間ですべての tf と df が計算できるのは不思議だと思いませんか?

このアルゴリズムを情報検索に応用したのが、本ページに記載している次世代ウェブ検索エンジンです。また、tf と df の計算は統計的な自然言語処理の基本技術としてよく使われるため、Suffix Array の自然言語処理応用の代表例として私たちの論文はよく引用されています(Google Scholar の引用文献検索)。

学生の研究テーマ

2015年度

博士論文

  • ダブルアレイによる高速かつコンパクトな統計的言語モデルの実装手法(乗松 潤矢)
  • 対をなす二文書間における文対応関係の推定(角田孝昭)

修士論文

  • Double Array言語モデル構築高速化のためのノード挿入時衝突回数削減法(小西琢也)
  • インデックスと確率格納配列を分離したダブルアレイ言語モデルのメモリ使用量削減(谷口正訓)
  • かなN-gramと単語N-gramを組み合わせた日本語回文生成(中島光夫)
  • 拡散カーネルを用いた教師なし属性・評価組抽出に関する研究(本多波輝)
  • シソーラスを利用した評価視点木の自動生成に関する研究(山下和輝)
  • 複数のデータ構造を組み合わせた言語モデルの効率的な実装(山田哲世)

卒業論文

  • 法文における参照表現の曖昧性解消(青木竜哉)
  • 選択的ノード保護によるネットワークのロバスト性向上効果の検証(賀沢唯)
  • Trieのノード格納順序によるDouble-Array言語モデルの充填率向上(芳賀駿平)
  • 辞書の語義掲載順に基づいた新語義検出における判定規則の検討(赤崎智)
  • SVMを用いた誹謗中傷・悪口投稿からの被害者表現の自動抽出(仲野友規)

2014年度

博士論文

  • pplication of Dependency Grammar on Modeling and Pre-reordering Languages(丁 塵辰)

修士論文

  • フレーズ単位評価表現辞書を用いた文の評価極性判定(中山卓哉)
  • 日英統計的機械翻訳における事前並び替え手法の自動詳細化(酒主佳祐)

卒業論文

  • 被害者種別を考慮したソーシャルテキストからの有害情報検出(河原 裕樹)
  • 単語共有性と固有名詞素性を用いたマイクロブログ投稿の情報源推定(川上 大樹)
  • SNSにおけるネットワークトポロジーと情報フローによるリンク予測(木藤 紘介)
  • Affinity Propagationを用いたWeb検索結果のクラスタリング(国田 将人)
  • 不完全なソーシャルネットワークからのユーザの影響力推定(木邑 和馬)

2013年度

博士論文

  • ウェブ検索エンジンのためのテキスト種別特定に関する研究(吉田光男)

修士論文

  • Statistical Machine Translation Models Utilizing Tree Combination(朱 チュウゲン)
  • 談話役割に基づくクラス制約を利用したレビュー文書の意見構造解析(浅野翔太)
  • 単語普及度を用いた優先度学習による新語義検出(大西健志)
  • テキスト分割手法を用いたマイクロブログポストの情報源推定(齋藤正樹)
  • トピックモデルを用いたソーシャルメディアからの市場シェア予測(佐藤信仁)
  • 単語出現確率の偏りを考慮した非可逆言語モデル(田中透)

卒業論文

  • ユーザー活動履歴を用いたソーシャルネットワークにおけるリンク予測(河合翔太)
  • 言語モデルにおける確率の分散を用いた量子化(小西琢也)
  • 英日機械翻訳における事前語順並び替え手法の改良(谷口正訓)
  • Supervised LDAの拡張によるテキストデータを用いた市場シェアの予測(中島光夫)
  • 言語パタンを用いた階層的評価視点カタログの自動生成(山下和輝)

2012年度

修士論文

  • 評価表現と文脈一貫性を利用した評価文書からのクレーム文自動検知(梅澤佑介)
  • 分岐ngramモデルを用いた依存構造解析手法(高木寛)
  • 対をなす二文書間における文対応関係の自動推定(角田孝昭)
  • Double-Arrayを利用した高速かつコンパクトなngram言語モデルの構築手法(安原誠)
  • 商品カテゴリ情報に着目した自動収集教師データによる商品名抽出(渡邊尚吾)

卒業論文

  • 構造情報付きデータを用いた分岐ngram言語モデルの構築(酒主佳祐)
  • 分岐ngramモデルを利用した教師なし依存構造解析(通事寛奈)
  • 述語項関係に対する評価極性の自動推定(中山卓哉)
  • チャットボットとの初期発話連鎖に関する研究(宮崎洋望)

2011年度

修士論文

  • 特徴的評価視点に着目したレビュー集合要約に関する研究(板谷悠人)
  • 階層フレーズ翻訳モデルにおける広範囲語順調整ルールの検討(丁塵辰)
  • 言語モデルスコア計算の削減による階層フレーズ機械翻訳の高速化(安田隆浩)

卒業論文

  • Web上のくだけた表現に対応した形態素解析辞書自動生成(浅野翔太)
  • 商品に関する被参照性と類似性に基づくレビュー文書からの競合商品同定手法に関する研究(石橋直己)
  • 用言を利用した曖昧語の集合拡張(大西建志)
  • 教師あり学習に基づく誤字・脱字検知システム(佐藤信二)
  • 依存構造トライグラム言語モデルの検討(神野孝幸)
  • ダブル配列による統計的言語モデルの圧縮と高速化(田中透)
  • コメントの連鎖情報を利用したマイクロブログの評価極性判定(丸本俊宏)

2010年度

修士論文

卒業論文

  • 粒度の異なる教師情報を用いた評価文書からのクレーム文自動検知(梅沢佑介)
  • 数字の汎化処理による統計的機械翻訳システムの改良(高木寛)
  • 局所的及び大域的文脈を利用した日本語スペルチェッカーの検討(角田孝昭)
  • トライ構造に最小完全ハッシュ法を用いたランダム探索言語モデルの高速化(安原誠)
  • 商品カテゴリ情報に着目した教師データ収集による商品名抽出手法の研究(渡辺尚吾)

2009年度

2008年度

2007年度

2006年度