- 关于大型语言模型中的位置偏差的总结化问题
对于大型语言模型,在抽象摘要任务中表现出色,但在多文档问答中存在输入上下文偏差,导致摘要内容分散,影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。
- 用合成任务教授语言模型减少产生幻觉
通过合成任务对大型语言模型进行系统信息优化,可降低其在真实任务中的错误生成,从而减少幻觉现象。
- 使用 GPT 对大型文档集进行抽象摘要
本研究提出了一种抽象化汇总方法,可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化,支持探索性数据分析。通过使用 ROGUE 汇总分 - EMNLP优化人工编辑的摘要生成
通过人类反馈范式学习的大型语言模型以及人类编辑和模型生成数据结合的新技术 Sequence Alignment (un) Likelihood Training (SALT) 在医学领域自动文摘中展示了有效性。
- NumHG: 用于数字为中心的标题生成的数据集
通过 NumHG 数据集,本研究针对标题生成任务中的数字生成问题,对头条生成模型进行了详细调查和评估,并发现数字准确性需要改进,从而表明了 NumHG 数据集在数字为重点的标题生成中推动进展和刺激进一步讨论的潜力。
- ESRL: 高效基于采样的序列生成的强化学习
通过引入两阶段取样和动态取样方法,我们提出了一种提高强化学习中序列生成模型取样效率的方法。我们在传统的序列生成任务上进行了实验,包括机器翻译和摘要生成。实验结果表明,这种高效取样的强化学习方法 ESRL,在训练效率和内存消耗方面都优于基线方 - ACLGUMSum:英文抽象摘要的多语种数据和评估
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
- 预训练抽象模型和 LLMs 在法律案件判决摘要方面的准备程度如何?
本文探讨了使用抽象式摘要模型生成司法判决结果的可行性,通过对印度法院判决结果运用数个领域专用和通用语言模型进行检验,发现在标准摘要质量度量标准中抽象式摘要模型略优于抽取式模型,然而生成的抽象式摘要信息通常不一致或产生幻象,因此,目前介入人员 - 面向长篇法律意见书的论点感知抽象摘要及其摘要重排技术
提出了一种考虑文档的论证结构进行长篇法律意见的抽象概述的简单方法,其中使用论点角色信息生成多个候选摘要,并基于与文档的论证结构的对齐重新排序这些候选项。证明了该方法在长篇法律意见数据集上的有效性,并表现优于一些强基线。
- ACL领域对齐前缀平均化在抽象化摘要领域通用化中的应用
本文提出了一种名为 DAPA 的轻量级领域通用前缀平均方法,通过源域的前缀生成目标域摘要,并利用加权平均源前缀的相似性计算权重。实验结果表明,DAPA 具有较好的性能表现。
- ACL提高抽象摘要的事实性而不牺牲摘要质量
本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术,旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量,训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。
- ACL利用 BRIO 训练范式进行抽象文本摘要
本文提出了一种简单但有效的技术,通过微调预先训练的语言模型并使用 BRIO 范例进行训练,以改进抽象摘要。我们在越南文上构建了一个文本摘要数据集,称为 VieSum,并使用 BRIO 范例在 CNNDM 和 VieSum 数据集上进行了实验 - ACL在抽象摘要中平衡词汇和语义质量
本文针对序列到序列的神经网络中常见的曝光偏差问题,提出了一种在词法和语义质量之间平衡的重排序方法,并以 BERTScore 为衡量标准,在 CNN/DailyMail 数据集上实现了新的最优表现。
- PROM: 一种预训练的短语级复制机制用于抽象摘要
本文提出了一种新型的词组级别的复制机制 PROM,可用于预训练的零 - shot 摘要生成,能够显著提高摘要性能和忠实度。
- ChatGPT 驱动的编辑教练用于自定义抽象总结
本文提出了一个三者代理生成管道,包括生成器,指导者和编辑器,以提高生成输出的自定义。展示使用编辑器导向的强化学习训练用户特定的指导者,通过 ChatGPT 大型语言模型产生和编辑,生成更好地满足用户期望的输出,实证结果证明了这种方法的有效性 - TempoSum:评估抽象化摘要的时间泛化能力
本文研究了文本摘要模型的时态泛化能力和忠实度,并提出了新的基准测试集 TempoSum,对不同时间段的数据进行测试,发现现有的基准测试集可能依赖于事先的知识,不具有泛化能力,并且现有的忠实度提升方法对未来数据的忠实度提升是不可靠的。
- 通过盲评审和文本分类算法比较 ChatGPT 生成的抽象概括和真实概括
本研究通过使用自动度量和盲审人员评估 ChatGPT 在编写摘要上的表现,同时构建自动文本分类器以检测 ChatGPT 生成的摘要,并发现虽然文本分类算法可以区分真实和生成的摘要,但人类无法区分真实摘要和 ChatGPT 生成的摘要。
- ACL面向忠实度的抽象化摘要生成解码策略
研究从生成技术角度对抽象摘要生成中的准确性进行了系统研究,发现大的 beam size 下的 beam search 生成最真实的摘要,而核采样生成的最不真实,同时提出了两种新的技术以进一步提高准确性。
- 抽象文本摘要任务中的拒绝学习
本研究提出一种基于拒绝学习的训练目标和一种正则化的解码目标,以提高摘要文本的真实性和抽象性。与五种基准模型相比,我们的方法在自动和人工评估中显著提高了生成的摘要文本的真实性。
- 探索基于 ChatGPT 的查询或基于方面的文本摘要的极限
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各