Less is More for Long Document Summary Evaluation by LLMs

这篇文章给了我们一种如何在自己研究的领域去"蹭"大模型热度的思路

摘要：

大语言模型（LLM）在自动摘要评估任务有良好的性能，但它们因为有着高额的计算成本和关键句子丢失等问题，模型经常忽视长文本中的重要信息。为了解决这些问题，该文介绍了一种新的方法，首先提取然后评估，它涉及到从长的源文本中提取关键句子，然后通过prompt LLM对抽取的句子进行评估。结果表明，该方法不仅显着降低了计算成本，但也表现与人类的评价较高的相关性。此外，作者还提供了对长文本抽取最佳文档长度和句子抽取方法的建议，为基于LLM的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

方法

摘要评价指标为模型生成的摘要 $y1$ 分配一个评分 $s1$ 。评价指标与人工判断得分 $s$ 之间的相关性越高，评估指标就被认为越好。为了分配评分 $s1$ ，现有研究使用参考摘要 $y$ 或输入文档 $x$ ，以及生成的摘要 $y1$ 。

为了使用LLM作为评估器，通常将模型生成的摘要 $y1$ 和源文档 $x$ 作为输入。

但该文提出的提取-然后评估方法包括两个步骤来使用LLM，如下图所示：

从长篇源文档 $x$ 中提取重要的句子进行摘要评估，直到达到预定义的长度 $N$ ，并构建一个短但信息密集的文档 $x′$ 。
通过prompt LLMs评估摘要 $1y$ $1 y$ 的质量。设计一个prompt可以将提取的源文档 $x′$ $x'$ 和摘要 $y1$ $y 1$ 作为输入，并生成一个评分标度 $s$ $s$ 作为输出。要提取句子，作者考虑了以下方法：
- LEAD： 提取文本中前N个句子
- ROUGE： 使用模型生成的摘要中有最大ROUGE得分的源文本句子
- BERTScore： 和ROUGE一样，只不过是在BERTScore评价指标中
- NLI： 使用NLI模型提取作为前提的句子，这些句子在生成的摘要 $y1$ 中被分类成抽取或不抽取，直到抽取句子达到N个字。这个过程旨在提取与正在评估的摘要在语义上相关的句子。

在所有方法中，原始顺序被保留，并且仅提取完整的句子。

实验

作者使用了GPT-4作为评估器，在arXiv、PubMed、GovReport和SQuALITY上进行了实验，对于句子提取，分别用128、256、512、768、1024、1536、2048和4096作为提取的源文档的长度限制进行实验。

结果

1.以1024作为抽取句子的长度效果最好

2.以ROUGE作为抽取策略效果最好

3.经过抽取后再评估，效果更好

总结

这篇文章在生成摘要评估的领域采用GPT4作为评估器，分为抽取+评估两阶段。
prompt+LLM在NLP任务中具有发展潜力（好蹭热点），目前绝大数NLP的文章都涉及到LLM，主要分为三个方向：
- 1.提出了大模型（大牛实验室）
- 2.提出了一种对大模型的分析（优缺点、新的微调方法等）
- 3.使用prompt 结合大模型应用到自己任务（最常见）

威伦特

Less is More for Long Document Summary Evaluation by LLMs

摘要：

方法

实验

结果

总结

Generating EDU Extracts for Plan-Guided Summary Re-Ranking