- WRDScore: 评估自然语言生成模型的新指标
自然语言生成中方法名称预测面临困难,为了解决这些问题,我们提出了一种新的度量标准,能够计算精确度和召回率,并在与人类判断相比获得良好的性能。
- 保障 2.0 中的挑战与否定性论证
描述了在 Assurance 2.0 及其 Clarissa/ASCE 工具支持下如何表示和评估 defeaters 和多个层次的 defeaters。这些机制还支持消除性论证,这是一种与确保相反的方法,被一些人青睐,它使用负面论证来否定为 - 从人类评判到预测模型:解析混合代码句子的可接受性
当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”,但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本,并实现质量控制的混合文本生成。为此,我们构建 - TeTIm-Eval:一个用于比较文本到图像模型的新型策划评估数据集
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
- QAScore -- 一种无监督无参考问题生成评估度量
提出了一种新的参考无需评估指标 QAScore,通过计算语言模型能否正确生成答案中掩码单词的概率来评估问题,发现它比传统的基于单词重叠的 BLEU,ROUGE 和预训练模型基于 BERTScore 等指标更能与人类判断相关。
- 重新思考基于人工判断的机器翻译单词质量评估
该论文旨在通过自监督的预训练方法以及标记修正策略,提高机器翻译的质量估计,避免传统质量评价准则的局限性,并通过人类专家的直接评注来构建不需要参考文献的数据集 HJQE 的实验结果证实了我们的方法的有效性。
- 自动机器翻译评估指标的全面评估:是否需要进行交付
该研究对机器翻译中评估标准的可靠性进行了探究,发现使用自动指标作为唯一评判标准可能导致错误决策,需要依赖人工判断作为参考,并发布了收集到的大规模人工翻译质量评价数据集,以供进一步研究。
- ACL使用 FRANK 来理解抽象摘要中的事实性:一个事实度量的基准
该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释,并使用它来识别各种类别的事实错误的比例,并基准事实度度量标准,显示它们与人类判断的相关性以及它们的特定优点和缺点
- 毒性检测:上下文是否真的重要?
该研究探讨了上下文信息是否影响文本模型对于评论内容的判断,结果发现上下文信息能够强化或减轻评论内容的毒性,但是定量证据表明,加入上下文信息并不能提高文本模型评价评论内容毒性的表现。
- 通过人工多重参考研究开放式对话系统的评估
本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点,研究结果表明,使用多参考评估可以提高几种自动指标与人类判断之间的相关性,无论是对于系统输出的质量还是多样性。
- 图像特异性
本研究介绍了图像的特异性概念,提出了自动化和人工评估测量图像特异性的两种机制,分析了图像内容和属性对其特异性的影响,通过训练模型自动预测图像的特异性,并展示其在文本图像检索中的应用。