Lin and Bilmes是最早将次模函数引入自动文摘的学者之一,也是对自动文摘次模性研究最深度的学者。在Multi-document summarization via budgeted maximization of submodular functions文章中,作者将自动文摘定义为预算约束(budget constraint,指每个文本单元都有一个budget)下次模函数最大化问题,形式描述如下: S⊆Vmax{f(S):i∈S∑ci≤B}
其中,V是文档中所有文本单元(如:句子)的集合,S⊆V是抽取的摘要,ci是非负实数,表示选择文本单元i的代价,B是预算,次模函数f(⋅)对摘要的质量进行打分。预算约束(budget constraint)在自动文摘中天然存在,因为文摘通常有长度限制,例如:单词数目,句子数目,摘要bytes大小等。
在定义摘要质量打分函数时,作者首先将整个文档表示成一个带权图(V,E),每条边ei,j∈E都关联一个非负权重wi,j。一个著名的基于图的用来度量S与剩余V∖S相似度的次模函数是graph-cut函数: fcut(S)=i∈V∖S∑j∈S∑wi,j
在多文档摘要中,冗余是一个不能忽略的问题,一份高质量不仅需要信息丰富,而且需要紧凑。作者在这借用了MMR的思想(最大化信息覆盖度同时最小化冗余度),定义了如下目标函数: fMMR(S)=i∈V∖S∑j∈S∑wi,j−λi,j∈S:i̸=j∑wi,j,λ≥0
在Lin and Bilmes 2011年的文章A Class of Submodular Functions for Document Summarization中,作者设计了一类次模函数用于自动文摘任务。这些函数都由两部分组成,一部分用于鼓励摘要包含更多的信息,另一部分用于鼓励内容的多样性,即低冗余。更为关键的是,这些函数是单调不减的,这意味一个高效可伸缩的贪婪最优化方案具有常数因子最优性保证。