文書の要約技術について

文書の要約技術について。

下記書籍参照。

自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)


文書要約の分類

  1. 単一文書要約
    • リード法
      • 文書の最初の数行を提示
      • 単純だが強力
      • ニュース記事などに特に有用
  2. 複数文書要約

  3. 抽出型要約

    • 文を抽出して変更せずに提示
    • 実用化されている手法のほとんどはこれ
    • MMR(maximal marginal relevance)
      • なるべく代表的な文を選択しながら、なるべく冗長でない文を選択
      • 類似度に基づく尺度
        • コサイン類似度など
  4. 抽象型要約
    • 新しい文章を生成しながら内容を抽象的に要約

日本語の要約に関して。


日本語要約の実装例

  1. GitHub - recruit-tech/summpy
  2. 日本語文書の自動要約アルゴリズムを60年近く前の論文を頼りに再記述する | Welcome to Singularity

過去にググった時の記事



要約とはまた違うけど日本語関係のPyPI


Tensorflowで要約


スライド資料等