Less is More for Long Document Summary Evaluation by LLMs

这篇文章给了我们一种如何在自己研究的领域去"蹭"大模型热度的思路

摘要:

大语言模型(LLM)在自动摘要评估任务有良好的性能,但它们因为有着高额的计算成本关键句子丢失等问题,模型经常忽视长文本中的重要信息。为了解决这些问题,该文介绍了一种新的方法,首先提取然后评估,它涉及到从长的源文本中提取关键句子,然后通过prompt LLM对抽取的句子进行评估。结果表明,该方法不仅显着降低了计算成本,但也表现与人类的评价较高的相关性。此外,作者还提供了对长文本抽取最佳文档长度和句子抽取方法的建议,为基于LLM的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

方法

摘要评价指标为模型生成的摘要y1y1 分配一个评分 s1s1。评价指标与人工判断得分 ss 之间的相关性越高,评估指标就被认为越好。为了分配评分 s1s1,现有研究使用参考摘要yy 或输入文档 xx ,以及生成的摘要y1y1

为了使用LLM作为评估器,通常将模型生成的摘要y1y1和源文档xx 作为输入。

但该文提出的提取-然后评估方法包括两个步骤来使用LLM,如下图所示:

  1. 从长篇源文档 xx 中提取重要的句子进行摘要评估,直到达到预定义的长度 NN,并构建一个短但信息密集的文档 xx′
  2. 通过prompt LLMs评估摘要1y1y 的质量。设计一个prompt可以将提取的源文档xx′ 和摘要y1y1作为输入,并生成一个评分标度 ss 作为输出。要提取句子,作者考虑了以下方法:
    • LEAD: 提取文本中前N个句子
    • ROUGE: 使用模型生成的摘要中有最大ROUGE得分的源文本句子
    • BERTScore: 和ROUGE一样,只不过是在BERTScore评价指标中
    • NLI: 使用NLI模型提取作为前提的句子,这些句子在生成的摘要y1y1中被分类成抽取或不抽取,直到抽取句子达到N个字。这个过程旨在提取与正在评估的摘要在语义上相关的句子。

在所有方法中,原始顺序被保留,并且仅提取完整的句子。

实验

作者使用了GPT-4作为评估器,在arXiv、PubMed、GovReport和SQuALITY上进行了实验,对于句子提取,分别用128、256、512、768、1024、1536、2048和4096作为提取的源文档的长度限制进行实验。

结果

1.以1024作为抽取句子的长度效果最好

2.以ROUGE作为抽取策略效果最好

3.经过抽取后再评估,效果更好

总结

  • 这篇文章在生成摘要评估的领域采用GPT4作为评估器,分为抽取+评估两阶段。

  • prompt+LLM在NLP任务中具有发展潜力(好蹭热点),目前绝大数NLP的文章都涉及到LLM,主要分为三个方向:

    • 1.提出了大模型 (大牛实验室)
    • 2.提出了一种对大模型的分析(优缺点、新的微调方法等)
    • 3.使用prompt 结合大模型应用到自己任务(最常见)