automatic metrics | BriefGPT

关键词automatic metrics

搜索结果 - 59

EMNLPPAIR：基于预训练 Transformer 的长文本规划和迭代细化
本文介绍了一种基于预训练转换器的内容控制型文本生成框架 ——PAIR。该框架采用了规划和迭代改进策略，并通过 BART 模型实现了生成。采用自动评估方法得分表明，添加规划可显著提高文本生成的质量，同时人工评估结果表明，PAIR 系统的生成结
PDF4 years ago
文本生成的评估：一项调查
该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特
PDF4 years ago
ACLBLEU 的黑箱：重新评估自动机器翻译评估指标
研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误
PDF4 years ago
ACLFEQA: 抽象摘要中忠实度评估的问答评估框架
该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。
PDF4 years ago
ACL生成、删除和重写：改善对话生成中角色连贯性的三阶段框架
本文介绍了一种三阶段框架，利用生成 - 删除 - 重写机制来处理基于角色的对话生成中存在的不一致问题，并在 Persona-Chat 数据集上进行了人工和自动指标评估。
PDF4 years ago
EMNLPBLEU 或许有罪但参考文献并不无辜
本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的
PDF4 years ago
AAAI隐藏与讲述：学习连接照片流进行视觉叙事
此篇论文旨在通过学习网络和 hide-and-tell 模型，实现基于照片流的视觉叙事，其中传统的 RNN 模型得到了改进和改善，最终在自动指标方面的表现优于之前的最先进方法，并在可视化上表现出填补照片之间的叙事空缺的能力。
PDF4 years ago
使用语篇结构进行机器翻译评价的 DiscoTK
本文提出了新颖的自动度量标准，使用议论结构和卷积核比较自动翻译的议论树和人类参考的议论树，并通过五种转换技术和增强基于修辞结构理论的基础议论树表示的方法，并将其得分结合成一个综合评分。最后，从 ASIYA MT 评估工具包中添加其他指标，并
PDF5 years ago
EMNLP通过回答不同的问题，改进生成式视觉对话
通过辅助目标激励 Qbot 多样性提问以减少重复，从而达到更好的视觉对话效果，在保证与前期研究同等图像相关性的同时，大大提升了对话的多样性、一致性、流畅度和细节。
PDF5 years ago
EMNLPEASSE：更简便的自动句子简化评估
介绍了一个名为 EASSE 的 Python 包，旨在促进和标准化句子简化（SS）系统的自动评估和比较，为评估资源提供单一访问点：包括标准自动指标、某些简化转换的单词级准确性得分、无参考质量估算特征和标准的 SS 评估测试数据。通过实验，发
PDF5 years ago
ACL关于自然语言生成评估中自动度量标准进行更好验证研究
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。
PDF5 years ago
ACL这封电子邮件可能会挽救您的生命：介绍电子邮件主题行生成的任务
该研究提出并研究了电子邮件主题行生成的主题，并创建了该任务的第一个数据集。他们发现电子邮件主题行生成偏爱极度抽象的摘要，并开发了一种新颖的深度学习方法来解决这个问题，并将其与几个基础模型和最新的文本摘要系统进行了比较。研究人员还调查了几种基
PDF5 years ago
ACL视觉故事后期制作
本文介绍了第一个包含 14,905 个人工编辑版本和 2,981 个机器生成的视觉故事的数据集，探讨了如何利用这些人工编辑版本进行后期编辑任务，并建立了基础数据，展示了人类编辑与机器编辑之间的弱相关性关系，从而促进了对新的自动化评估指标的需
PDF5 years ago
ACL利用头修饰符模板确保深度类型描述生成中的可读性和数据保真度
本文提出了基于头修饰模板的方法来生成实体类型的简洁描述，并提供了新的数据集和自动评估指标，实验结果表明与基线模型相比，该方法在提高可读性的同时，实现了最先进的性能。
PDF5 years ago
ACL利用蕴涵关系评估对话系统中的一致性
本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。
PDF5 years ago
ACL自然语言评估中去偏置自动度量的代价
本文提出使用控制变量方法，结合自动评价指标与人工评价来获取代价较低的无偏估计，在对文摘和开放式问题回答进行评估时，可以实现 7-13% 的代价降低，同时强调了自动评价指标和提示方式是进一步降低代价的关键瓶颈。
PDF6 years ago
ICML使用自然语言生成反事实解释
本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。
PDF6 years ago
ACL自动文章评论：任务和数据集
本文介绍了自动评论任务的提出和拥有数百万真实评论和人工标注的子集的大规模中文数据集，并开发了考虑评论质量与人类评估相关性的自动度量标准。
PDF6 years ago
GYAFC 数据集：正式语体转换的语料库、基准和度量标准
本研究创造出最大的专门风格转换语料库，针对形式化语言的风格，显示了使用机器翻译技术作为未来工作的强有力基线，并讨论了使用自动指标的挑战。
PDF6 years ago