セグメント構造を持つバイリンガルトピックモデル

田村晃裕, 隅田英一郎 - 情報処理学会論文誌, 2017 - ipsj.ixsq.nii.ac.jp
田村晃裕, 隅田英一郎
情報処理学会論文誌, 2017ipsj.ixsq.nii.ac.jp
論文抄録 本稿では, 各文書を 「文書-セグメント (たとえば, 段落やセクション)-単語」
の階層構造でモデル化する新たな多言語トピックモデル 「Bilingual Segmented Topic Model
(BiSTM)」 を提案する. Bilingual Latent Dirichlet Allocation (BiLDA) などの従来の多言語トピック
モデルは, 対応関係がある文書のトピック分布を共有させることで, 異言語の文書間の対応関係を
反映したモデル化を行う. 一方で, BiSTM は, 文書間の対応関係に加えて, 対応関係のある
セグメントのトピック分布も共有させることにより, 異言語のセグメント間の対応関係も反映したモデル …
論文抄録
本稿では, 各文書を 「文書-セグメント (たとえば, 段落やセクション)-単語」 の階層構造でモデル化する新たな多言語トピックモデル 「Bilingual Segmented Topic Model (BiSTM)」 を提案する. Bilingual Latent Dirichlet Allocation (BiLDA) などの従来の多言語トピックモデルは, 対応関係がある文書のトピック分布を共有させることで, 異言語の文書間の対応関係を反映したモデル化を行う. 一方で, BiSTM は, 文書間の対応関係に加えて, 対応関係のあるセグメントのトピック分布も共有させることにより, 異言語のセグメント間の対応関係も反映したモデル化を行う. また, 本稿では, セグメントが与えられていない場合にも提案モデルを適用できるようにするため, Du ら (2013) の教師なしトピック分割手法を BiSTM に導入し, 潜在トピックとセグメント境界を同時に推定するモデルも提案する. 日英および仏英の多言語コーパスを使った評価実験を通じて, 提案モデルは BiLDA よりパープレキシティの観点で優れたモデルであることを示し, 対訳対抽出の性能も改善できることを示す.
ipsj.ixsq.nii.ac.jp