- ComperDial: 基于常识和角色的对话数据集与基准
我们提出了一个新的基准系统 ComperDial,用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应,除了单个对话转折的评分 - CVPRPolos: 从人类反馈中进行多模态度量学习用于图像字幕生成
提出了一种基于人类反馈训练的 Polos 的自动评估度量标准用于图像字幕模型,该度量标准从多模态输入中计算得分,利用通过大规模对比学习训练的嵌入进行平行特征提取机制。通过在 Polis 数据集上取得的最新成果,证明了该方法具有效果和鲁棒性。
- 自动问答可回答性评估
本研究提出了一种基于提示的回答可行性度量(PMAN),它是一种新颖的自动评估度量,用于评估生成的问题是否可由参考答案回答,以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验,证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评 - CISum: 学习跨模态交互以增强多模态概述的语义覆盖范围
提出多任务交叉模态学习框架(CISum)以通过学习多模态文章中的跨模态交互来改善多模态语义覆盖。将图像转换为视觉描述,与文本内容相关联,进而与文本内容融合以生成文本摘要,选取最相关的图像作为视觉摘要。设计自动多模态语义覆盖评估指标并在实验证 - 浪漫计算
本文比较了各种文本生成模型在写作早期英国浪漫主义诗歌方面的能力,通过系统测试和 GRUEN 评估指标,发现变压器模型的质量明显优于递归神经网络模型,并随着参数大小的增加而进一步提高。
- 关于使用嵌入、聚类和字符串进行文本生成器评估的实用性
本文探究了自然语言生成中,自动评价方法之一的 Mauve metric 在理论与实践中的缺陷,并提出了基于聚类的代替方案,通过编码句法和一致性特征来评估文本生成方法。
- EMNLP通过反事实估计对文本摘要的实际一致性评估
提出一种基于反事实估算的新型度量标准,用于评估文本摘要的事实一致性,能够帮助改善与人类判断的相关性和使用的便利性。
- ACLImaginE:一种基于想象力的自动自然语言生成评估指标
本文提出了一种基于想象力的自然语言生成自动评估度量 ——ImaginE,通过与先进的文本到图像生成工具 StableDiffusion 结合,自动生成文本碎片的图像并使用情境嵌入计算想象力相似性,在多个文本生成任务实验中表现出引入多模信息到 - ACL通过问答提高摘要生成的事实一致性
本文提出了一种解决摘要生成模型中可能存在错误信息的方法,策略包括评估指标度量、新型学习算法、人工评估等,并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。
- DialoGPT 对话交互的无监督评估
本文介绍了 FED 度量(对话的细粒度评估),该度量使用 DialoGPT,不需要微调或监督,以及 FED 数据集,称为人机和人人对话的十八个细粒度对话质量的注释构成。FED 度量不依赖于真实回答,不需要训练数据,并且在回合和整个对话水平上 - ACL学习用于在线对话评估的无参考度量
本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准,不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中,该模型与人类评注的相关性更高。
- ICLR使用 BERT 评估文本生成
BERTScore 是一种针对文本生成的自动评估指标,利用上下文嵌入计算 token 的相似性,能够更好地与人类判断相关,并提供比现有度量更强的模型选择性能。
- RUBER: 一种自动评估开放领域对话系统的无监督方法
本文提出 RUBER 作为一个自动评估指标,旨在为开放式对话系统提供标准的评估方法,其评估响应时综合考虑了真实响应和查询的相关性,无需人工标注,适用于不同的数据集和语言,并通过实验与人工标注结果具有很高的相关性。
- 基于依存句法模型的自动机器翻译评价度量
通过对依存分析模型理解,提出一种不需要人工定义子结构的新的自动评估度量标准,以获取词汇相似性,并取得系统水平的最佳性能。