- 自然语言生成中的自动评估的玻璃天花板
本文对比了现有的自动评估指标和人工评估指标,发现自动评估指标与人工评估指标相比非常相似,并提出了未来评估工作的建议。
- DialogSum Challenge:对话摘要共享任务结果
本文讨论对话摘要的 DialogSum Challenge 中四个团队使用自动和人工评估度量探索改进对话摘要性能的结果,并发现人工评估和自动评估之间存在巨大差距,需要更细致的评估方法。
- 重新思考视觉问答中的评估实践:针对分布外泛化的案例研究
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同 - SQuALITY: 用较困难的方式构建长文摘要数据集
通过请高质量合同工人阅读原始文档并写出原始摘要,建立了 SQuALITY 数据集,该数据集的第一篇文章概述了主要内容,其余四篇回答了具体问题,实验证明现有自动摘要评估指标不是优秀的质量指标。
- DISK:基于领域约束的数学问题实例草图生成
本文提出了一种基于神经网络的数学文字问题生成模型,该模型利用领域知识检索最符合实际的 MWP 实例,并通过构建 Quantity Cell 图与方程编码器相互作用,提高 MWP 的文本衔接。实验结果表明,该模型在自动评估指标和人工评估指标方 - ACL利用用户情感进行自动对话评估
本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法,从而避免了对人工标注数据的依赖,实现对弱监督数据的训练,并添加了对口语和书面语的支持。
- ACL使用基于 AMR 的语义操作进行对话连贯性评估
提出使用抽象含义表示 (AMR) 进行语义级别操纵的对话连贯性评价标准 (DEAM),在多个对话数据集上,DEAM 与人类判断的相关性高于基准方法,且能够区分基准操纵生成的连贯和不连贯的对话,DEAM 具有语义级别的操纵和自然的负样本生成潜 - StyleM: 基于对比 N-grams 构建的图像字幕风格化度量
本文提出了两个用于评估机器生成的标题和真实风格化标题之间关联的自动评估度量标准:OnlyStyle 和 StyleCIDEr。
- EMNLP用于评估 NLG 评估指标的 扰动检查清单
通过研究发现,基于单一标准(如总体质量)的自动评估指标与人工评分不能很好地关联,因此我们提出了 CheckLists 以更好地设计和评估自动评估指标,并通过模板针对特定标准对输出进行干扰,从而暴露指标的局限性,并有利于更好地设计、分析和评估 - ACLEmailSum:邮件串抽象概括
研究开发了一个抽象的邮件线索摘要数据集(EmailSum),并进行了广泛实证研究探索不同的摘要技术,结果发现当前抽象摘要模型存在理解发件人意图和识别发件人和收件人角色的挑战,并且 ROUGE 和 BERTScore 等自动评估指标与人类评价 - 对话评估指标的全面评估
这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估,并在不同的设置中对其进行了评估,从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识,为未来的研究提供了有用的指导。
- ACLREAM#:面向开放域对话生成的参考评估指标提升方法
本文提出了一种改进的基于参考的开放域对话系统评价度量方法 REAM#,使用预测模型评估所给参考集的可靠性,不断增加高质量的参考文本以提高评分度量的可靠性。
- ACL基于情节导向的对抗样本构建,用于评估开放域故事生成
本文讨论了如何通过使用结构化的故事情节生成更全面的不合理故事来解决自动生成故事的可靠自动评估指标的不足,并应用对抗过滤程序来优化生成的故事。通过使用这种方法,我们可以更精确地评估人工生成与自动生成的故事之间的不同之处。
- COLING对开放领域对话系统进行可配置评估指标的解构与重构
我们提出了一种灵活的度量方法,并通过组合可管理的质量、将质量分成三组,并将每个方面的指标合成为一个指标,得到了名为 USL-H 的度量方法,证明了 USL-H score 与人工评价具有良好的相关性和可配置性。
- EMNLP使用批量居中和缓和词移距离来提高文本生成评估
本文提出了两种改进相似度度量的编码表示方法,包括基于批次平均居中策略改进统计意义和在 BERT 编码器中使用计算效率更高的温和 Word Mover 距离来更好地融合上下文词表示信息,实验表明,这些方法的鲁棒性得到了证明,并在各种 BERT - SemEval-2020 任务 4 中的 ANA:多任务学习用于常识推理(UNION)
本文描述了我们针对 SemEval2020 Task 4 C 任务提交的 mUlti-task learNIng for cOmmonsense reasoNing (UNION) 系统,该系统提出了一种统一的端到端框架,利用了多个现有的常 - 稳定风格转换器:编码器 - 解码器删除生成方法用于文本风格转换
本研究介绍了一种在非平行数据集上进行文本风格转换的方法,该方法分两个阶段:通过分类器直接删除句子的属性标记以及通过结合内容标记和目标风格生成转移后的句子。实验证明,该系统可以稳定地在所有自动评估指标上工作,并且与其他模型相当。
- NUBIA:基于神经网络的文本生成可互换性评估器
介绍了 NUBIA 方法,该方法使用机器学习模型作为核心组件来构建文本生成的自动评估度量标准,演示了该方法优于当前用于评估机器翻译和文摘的度量标准,并在 WMT 分割级直接评估任务,句子级排序和图像字幕评估中略微超过 / 达到人类判断的最新 - ACL通过响应选择评估对话生成系统
本研究提出了一种构建响应选择测试集以进行系统评估的方法,通过过滤不相关的和可接受的候选者,实验表明此方法比 BLEU 等自动评估指标更能与人类评估相关联。
- PONE:一种新型开放域生成对话系统自动评估度量
通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的