photo by Mrs. Logic (Creative Commons License 2.0)
最終更新日 2010/03/25

Khafraとは?

Khafraは、筑波大学 自然言語処理 on the Web 研究室が開発した、オープンソースのフレーズベース統計的機械翻訳(PBSMT)デコーダです。

Khafraデコーダは、オープンソースのPBSMTシステムMosesにより学習したモデルを利用して翻訳を行います。探索にDPビームサーチ(詳しくはこちらを参照)を採用することにより、Mosesに比べて10倍速い翻訳が可能になりました。

本ソフトウェアには、以下のような特徴があります。

Khafraの特徴

  • Mosesと互換
    • Mosesで学習したモデルを利用
      • フレーズ翻訳モデル
      • リオーダリングモデル(Lexicalized Block Orientationモデル)
        • 現在は、LBOモデルとしてmsd-bidirectional-feのみに対応
      • N-gram言語モデル
    • Mosesで使用できる基本的なオプションを実装
  • DPビームサーチ[Zens and Ney 08]の採用により、Mosesとほぼ同じ精度で10倍速い翻訳を実現
    • 本ソフトウェアでは、[Zens and Ney 08]で提案されている枝刈り法のうち、
      lex.hyp. pruning per cardinality(従来の枝刈り法)のみをサポート
  • ライセンス:MITライセンス

インストールと使用方法

インストール方法

  1. モデル学習・パラメータのチューニングに必要なツールのインストール
    • 以下のツールをインストールします。インストールは、各ソフトウェアの配布サイト、マニュアル等に従って行ってください(参考:SMT Workshop'08)
      • Moses: 翻訳モデル・語順並べ替えモデル学習、パラメータ調整に必要
      • GIZA++, mkcls: Mosesによるモデル学習の過程で使用
      • SRI Language Modeling Toolkit: 言語モデル学習に利用
  2. Khafraデコーダのインストール
    1. Khafraデコーダをこちらからダウンロードします。
      % wget http://www.nlp.mibel.cs.tsukuba.ac.jp/khafra/khafra_v*.**.tgz
    2. ダウンロードしたファイル khafra_v*.**.tgz を展開します。
      % tar -zvxf khafra_v*.**.tgz
    3. 展開されたディレクトリkhafra_v*.**に移動します。
      % cd khafra_v*.**.tgz
    4. khafra_v*.**内にあるMakefileを以下のように書き換えます。
      % vi Makefile
      • 1行目:SRILM="SRI LMをインストールしたディレクトリへの絶対パス"
      • 3行目:SRILM_LIB_DIR=$SRILM/lib/***への絶対パス(***は環境により異なる)
    5. khafra_v*.**ディレクトリ直下で、makeコマンド(引数なし)を実行します。
      % make
    6. makeにより、./bin/khafraが作成されればインストール完了です。
      % ls bin
      khafra <--これが表示されればインストール完了

使用方法

詳しい使用方法やオプションについては、ソースコードに同梱されているマニュアルを参照してください。ここでは、ソースコードに同梱されているモデル、テストセットを用いて実行する例を示します。

  1. khafraのインストールディレクトリへ移動します。
    % cd ******/khafra_v*.**
  2. 以下のコマンドを実行することで翻訳できます。
    % bin/khafra -f sample/model/moses.ini < sample/text/test.ab > test.tlt
  3. 上記コマンドを実行すると、翻訳結果がtest.tltというファイルに出力されます。

ダウンロード

2010年03月08日
version 1.00 公開開始 LATEST
2010年03月03日
version 0.95 暫定版

TO DO

  • 以下の枝刈り法の実装
    • cov.hyp. pruning per cardinality
    • lex.hyp. pruning per cov.hyp.
  • msd-bidirectional-fe以外のLBOモデルへの対応
  • distortion limitへの対応
  • N-best翻訳出力への対応

Copyright・ライセンス

Copyright

Khafraの著作権は、筑波大学 自然言語処理 on the Web研究室に帰属します。
本ソフトウェアを論文等に引用される場合は、下記の 参考文献1 [安田 et al. 2010] を引用いただければ幸いです。

ライセンス

MITライセンス

参考・リンク

参考文献

  1. 安田隆浩, 越川満, 乾孝司, 山本幹雄. 2010. Khafra: 語順並べ替えモデルに対応した動的計画法に基づくSMTデコーダ. 言語処理学会第16回年次大会発表論文集, pp.625--628.
  2. R.Zens and H.Ney. 2008. Improvements in Dynamic Programming Beam Search for Statistical Machine Translation. In Proceedings of the Internatinal Workshop on Spoken Language Translation, pp.198--205.
  3. P.Koehn et al. 2007. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pp.177--180.

リンク