- ACLSWING: 对话摘要的覆盖率和准确性的平衡
研究利用自然语言推理(NLI)模型来提高对话摘要的覆盖率和忠实度,通过计算细粒度训练信号,产生内容在参考摘要中未被涵盖,并且区分生成的句子是与事实一致或不一致的,通过 DialogSum 和 SAMSum 数据集的实验证实该方法的有效性,并 - TikTalk: 一个实际闲聊的多模态对话数据集
本文介绍了一个新型的多模式聊天对话数据集 - TikTalk,通过视频社交应用的生成视频和相应的对话对构建对话语料库,通过三种模态的数据(文本、视觉和音频),为聊天机器人的深入理解和响应的生成提出了挑战,实验结果表明,TikTalk 仍有大 - 自然语言生成的人类似评估及其误差分析
该论文介绍了一种基于 BARTScore 的人工智能评估方法,通过自动化错误分析以达到更接近人类的漏洞检测,实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。
- 重新审视黄金标准:用稳健的人类评估来立足摘要评估
本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大 - MT Metrics 与人类对同声传译的评分相关
对英德语同声传译任务的候选系统进行评估时,离线机器翻译指标与连续评分器(CR)有很强的相关性,因此可以可靠地用于同时模式下的机器翻译评估,从而减轻了人工评估的需求。
- WMT22 通用机器翻译任务的自动评估
本文介绍了第七届机器翻译会议的机器翻译任务自动评估,其中评估了 185 种系统,包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制,并凸显了当前最先 - COLING人类标准与自动度量 —— 评估故事生成的基准
本文通过提出 6 个人工评估标准,构建一个注释数据集‘HANNA’,并分析 72 种自动指标与人工标准的相关性,强调了当前 ASG 的评价标准的缺陷,并提出了实用的评价建议。
- ACL机器翻译人类评估的有效性改进探讨
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问 - 关于释义生成的评估度量
本文重新审视了用于复述评估的自动评估度量,并得出两个违背常规智慧的发现:(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。 基于实验和分 - 评估机器翻译系统:一个理论框架
本篇论文提出了一个理论框架,可以设计不同的自动度量标准来评估机器翻译系统。它引入了 “认知轻松度” 概念,依赖于 “适当性” 和 “流畅度”。这样,认知轻松度成为要测量的主要参数,而不是可理解性。该框架允许对认知轻松度的各个组成部分进行分解 - 叙事生成中实体使用的连贯和一致性探索
本文系统地研究了预训练语言模型在故事生成任务中维持实体连贯性和一致性方面的能力,并提出了动态实体记忆的增强方法,旨在使用辅助实体相关性损失来指导读写实体记忆,以提高实体连贯性和一致性,同时还验证了自动评价指标与人工评价的相似度,从而提出的自 - 人类评估对话的敏感度是个开放性问题:比较不同的方法用于评估对话代理
本文研究了如何有效地评估对话系统的性能,发现人工评估是最好的方法,但人工评估方法的不同会导致不同的数量的人工注释和劳动成本,因此我们比较了五种不同的众包工人评估方法,发现不同的方法适用于不同类型的模型比较,建议在何时采用哪种方法,以及未来的 - 探究预训练语言模型对对话评价的影响
本研究分析了 8 种不同的预训练语言模型对三个典型自动对话评估度量标准在三个不同对话评估基准上的表现,包括预训练目标,对话评估标准,模型尺寸和跨数据集的稳健性,为首次对不同预训练语言模型对自动对话性能影响的全面评估。
- 自动机器翻译评估指标的全面评估:是否需要进行交付
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
- ACL你熟悉哪些摘要数据集?
本研究手动分析了三个流行的摘要数据集中的 600 份样本,并对 27 个最先进的摘要模型和 5 个流行的度量标准进行了彻底分析。 研究揭示出数据集具有不同的数据质量和复杂度分布,对样本复杂度强烈依赖,以及基于引用文本的质量差异导致真实摘要得 - ACL在线学习与机器翻译评估:以最少的人力努力找到最佳系统
基于在线学习的机器翻译自动化指标优化方法,通过对多个语言对进行评估,快速收敛于表现最佳的前三个系统。
- ACLOpenMEVA:用于评估开放式故事生成指标的基准
该研究提出了 OpenMEVA 标准,用于评估故事生成指标的能力,揭示了现有的自动度量标准与人类评估的相关性不足,并且缺乏推理能力,该研究为进一步研究自然语言生成模型和指标提出了启示。
- ACL具有风格引导计划的风格化故事生成
本文提出了一个新的任务 —— 风格化故事生成,即在给定前导的情况下生成带有指定风格的故事,并提出了一种新颖的生成模型来解决这个问题,该模型首先规划出风格化关键词,然后在关键词的指导下生成整个故事。此外,提出了两种自动度量标准来评估所生成的故 - ACLBlonDe:一种用于文档级机器翻译的自动评估指标
本文提出了一种新型的自动评估方法 BlonDe,通过将话语连贯性考虑在内来扩大自动翻译评估的范围,从句子级别提高到文档级别,该方法能够更好地区分文档级别的翻译质量改进和句子级别的改进,并且具有更好的判别性、可解释性和敏感性。在大规模的人类研 - COLING评估测量经常在低分数范围内出现分歧:重新审视摘要评估测量指标
本文讨论了人工评价与自动评价在文本摘要中的应用,并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。