- PerSEval:文本摘要的个性化评估
个性化摘要模型研究了人们对要点的个人理解,通过他们的阅读历史和当前关注的主题进行表示。本文挑战了精度排行榜的必要性,并提出了一个新的度量指标 PerSEval,用于评估个性化文本摘要的程度。然后,通过在 PENS 数据集上对最新的十个摘要模 - 探究医患对话摘要的稳健性:跨领域 SOAP 笔记分析
研究考察了最先进的医患对话生成摘要模型在域外数据上的表现,将医患对话摘要模型分为两种配置,一种是通用模型,另一种是以 SOAP 部分生成摘要的模型。研究分析了基于微调语言模型和 GPT 的方法在两种配置上的局限性和优势,以及通过语言查询和词 - ACL情感极性校准用于观点摘要
通过引入极性校准概念,在传达文本信息的同时平衡波动偏向,我们的极性校准模型(PoCa)能够减轻输出摘要与输入文本之间的极性不匹配,并保持内容语义和语言质量。
- 无序文本中的动态方面注释总结的基准测试:Disordered-DABS
针对无序文本的动态方面导向摘要提出了 Disordered-DABS 评估框架,并通过实验证明该框架对于包括语言模型在内的现代摘要模型存在独特挑战。
- ACLGUMsley:对 12 种英语流派中摘要的实体显著性评估
该研究通过提供具有显著性的实体来改善摘要生成中的实体幻觉问题,并评估了预训练的最先进的摘要模型和零 - shot LLM 提示对于捕捉生成摘要中显著实体的能力。
- 利用内容计划促进科学文章的摘要生成
该论文提出了一种新颖的提示技术,以提高科学文章的自动摘要系统的性能。通过提供额外的上下文信息来引导摘要系统,并使用从文章中提取的关键词列表进行输入。实验证明了提示方法的效果,特别是对于单独摘要各个部分的较小模型而言,突出了提示是克服较弱系统 - EMNLP词汇重复导致机械记忆:揭示训练和测试参考摘要中词汇重叠的影响
理想的摘要模型应该能推广到新的值得摘要的内容,而不需要死记参考训练摘要,我们提出了一种细粒度的评估协议,通过基于参考测试摘要与训练摘要之间的词汇相似性将测试集划分,限制训练摘要中的词汇重复能够防止死记硬背,并提高摘要模型的泛化性。
- EMNLP以基于基础语言模型的零 - shot 忠诚度评估文本摘要
提出一种新指标 FFLM,结合基于概率变化的方法评估生成模型的忠实度,相比于强基准模型 ChatGPT 拥有更少的参数,并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。
- 在摘要模型中调整似然函数以求得一致性
通过校准概率与自然语言推理模型一致性得分之间的关系,我们提出了一种改进抽象文本摘要模型的方法,该方法确保所生成的摘要更加一致且质量更高。
- 机器与人类在会议摘要中的合作:Minuteman
一个名为 Minuteman 的新工具,提供实时的会议语音转录和摘要,允许用户实时协同编辑,以便纠正 ASR 错误和摘要不准确之处,从而减轻记录员的认知负荷并方便了解错过的会议内容。
- ACL使用双重增益提高摘要系统的鲁棒性
本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性,发现模型鲁棒性不足。为提高模型的鲁棒性,提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据,同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明,该方 - ACL自动医疗记录生成评估指标研究
本文旨在研究自动生成临床笔记的评估方法和度量标准,提出了新的任务特定度量标准,并将其与现有文本摘要和生成的 SOTA 度量标准进行比较,研究分布和测量不同的自动摘要的正确性,并试图确定与人类判断相一致的最佳自动评估指标。
- ACL如何确定合适的校准样本特征?长篇科学总结相关性鉴定
本文研究文摘模型的校准问题,发现通过多样的候选池和调整不同的选择策略可以提高校准效果。在三个不同的长篇文本摘要数据集上测试,发现对于可靠性校准最好采用一些可能被生成的摘录作为反例集合,而对于相关性校准则应该最大化候选集之间的度量间隔,同时最 - 自动摘要中的政治偏见:特朗普和拜登的案例研究
该研究使用实体替换方法研究了新闻文章自动生成摘要中对政治家的描绘,发现抽取和生成式摘要模型中川普和拜登的政治偏见存在着差异,该系统性特征提供了未来研究偏见的框架。
- TempoSum:评估抽象化摘要的时间泛化能力
本文研究了文本摘要模型的时态泛化能力和忠实度,并提出了新的基准测试集 TempoSum,对不同时间段的数据进行测试,发现现有的基准测试集可能依赖于事先的知识,不具有泛化能力,并且现有的忠实度提升方法对未来数据的忠实度提升是不可靠的。
- ICLR多篇文档摘要模型是否具有综合能力?
本文旨在评估现代多文档摘要模型在混合输入时是否能够适当地综合输出,并提出了一种改进模型综合能力的方法,即通过生成多样的候选输出并在这些中选择与期望聚合度量最能匹配的字符串或在模型产生的候选项不好时选择回避。
- 探索开放领域多文档摘要的挑战
本文研究了 Multi-document summarization (MDS) 在基于开放领域的信息检索下的应用。作者在实验中发现现有的摘要算法性能较低,但通过训练摘要算法可以减少检索错误对算法性能的影响。此外,作者还进行了扰动实验研究了 - EMNLP使用基于压缩的后编辑改善摘要中的事实一致性
本文提出了一种基于句子压缩数据的模型无关方法,旨在在保留要点和格式要求的同时消除外在实体错误,从而提高信息摘要生成中的事实一致性,并使用 XSum 数据集进行评估, 实验结果表明,在不影响 ROUGE 的情况下,本文所提出的方法可以提高实体 - EMNLPFRSUM:提高事实鲁棒性以实现忠实的抽象摘要
本文从事 Seq2Seq 模型中摘要不忠实的问题,并从事实鲁棒性的角度对现有系统的忠实度进行研究。针对当前存在的问题,作者提出了一种名为 FRSUM 的新的训练策略,能够在生成文本时防御显式和隐式的对抗信息,从而提高 Seq2Seq 模型的 - EMNLP多篇文档摘要如何 “多”?
本文介绍一种用于评估多文档摘要生成模型及数据集中数据分散程度的自动化度量方法,并检验几个流行的多文档摘要数据集,结果表明某些数据集没有利用多文档信息,提出应用该度量方法评估数据集和模型的性能。