automatic metrics | BriefGPT

关键词automatic metrics

搜索结果 - 59

EMNLP文本摘要质量评估方法的比较研究
基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。
PDF4 days ago
COLING评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割
从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2
PDFa month ago
自动指标能否评估高质量翻译？
当前的自动评估翻译质量的度量方法往往只关注区分优劣翻译对的能力，忽视了对相同原文的各种翻译的可靠性。本文通过实验证实了这一点，并表明目前的度量方法对翻译质量中微妙的差异不敏感。鉴于这一发现，我们转向检测高质量的正确翻译，这在实际决策场景中优
PDFa month ago
多语言对话代理的准备工作被低估了
多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性，通过改进训练数据效率的研究趋势，我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习
PDFa month ago
关于非自回归翻译中的信息冗余
在这项研究中，我们重新审视了最近提出的全非自回归翻译模型中的多模态问题，并揭示了这些先进模型引入了其他类型的信息冗余错误，无法由传统指标 - 连续重复比率来衡量。通过手动注释非自回归翻译模型的输出，我们确定了与词汇和重新排序的多模式问题相符
PDF2 months ago
探索会议总结的自动评价指标
会议总结的关键任务是识别和提取关键字，但现有评估指标无法准确捕捉会议特定错误，本文通过对人工评估和自动评估的相关性研究，揭示自动指标无法捕捉可观测错误且掩盖了某些错误，同时发现不同模型架构对会议文件中的挑战有不同的响应，存在明显的挑战与错误
PDF3 months ago
在自然语言生成系统评估中，引用是否有必要？何时何地？
基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是
PDF3 months ago
上下文对聊天翻译评估是否有帮助？
通过对自动度量、机器翻译聊天等领域进行元评估，我们发现引用自由度量相较于引用依赖度量滞后，尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中，并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类
PDF4 months ago
基于错误人工评估的 GPT-4 在句子简化中的深入评估
通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此
PDF4 months ago
EMNLP自动机器翻译度量指标的鲁棒性测试与对抗攻击
我们研究了对抗性合成文本上的机器翻译评估指标的性能，以阐明指标的稳健性。我们对三个流行的机器翻译指标（BERTScore、BLEURT 和 COMET）进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译
PDF8 months ago
EMNLPBLESS：句子简化上的大型语言模型基准测试
我们提出了 BLESS，它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域（维基百科、新闻、医学）的少样本测试集上的表现，并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标
PDF8 months ago
通过 WordNet 层次结构评估文本到图像模型的上义词理解
使用自动度量标准，评估了文本到图像模型在语言理解方面的能力，发现模型在理解词语间的超类关系以及部分词语的绘制上存在局限性。
PDF9 months ago
通过多模态大规模语言模型引导基于指导的图像编辑
通过多模态大语言模型（MLLMs）的指导，MLLM-Guided Image Editing（MGIE）学习能够提供表达性指令和明确引导的图像编辑模型，其通过端到端训练同时捕捉了视觉想象力并执行图像操作。大量实验结果证明，表达性指令对基于指
PDF9 months ago
LongDocFACTScore: 长文本摘要的事实评估
维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一
PDF9 months ago
StoryBench：用于连续故事可视化的多面向指标
从文本提示中生成视频故事是一项复杂的任务，需要高质量的视觉效果，视频需要根据文本提示的顺序进行逼真的呈现，而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足，我们在三个现有数据集上收集全面的人工注释，并引入了 S
PDF10 months ago
ACLBLEURT 具有通用翻译能力：最小风险训练下自动度量分析
自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。
PDFa year ago
HAUSER: 面向综合和自动评价的比喻生成技术研究
本研究建立了 HAUSER，一个全面自动的评估系统用于比喻生成任务，其中包括三个角度的五个标准和每个标准的自动衡量标准，通过广泛的实验，我们验证了我们的度量标准与每个角度的人类评分显著相关比先前的自动度量标准。
PDFa year ago
让大型语言模型能够生成带有引文的文本
这项研究介绍了 ALCE，一个自动化 LLMs 引用评估的评测基准，通过自动度量三个维度 - 流畅度、正确性和引用质量，强调了更好的检索器、长文本 LLMs 等方向的改善空间。
PDFa year ago
如何选择聊天机器人：用于对话指标评估的大规模多系统多参考数据集
发布 MMSMR 数据集以促进关于对话度量和评估的未来研究。在单个参考评估集基础上创建了 8 个参考对话数据集，训练了 1750 个系统，并在 Novel 数据集和 DailyDialog 数据集上评估了各个系统的性能指标和模型超参数。
PDFa year ago
使用 ChatGPT 进行文本风格转移的多维度评估
本文旨在通过评估 ChatGPT 在文本风格转换多维度评估中的作用，与现有的自动度量以及人类判断的对比。结果表明，在不同等级下，与现有的自动度量相比，ChatGPT 与人类判断具有相似的相关性。
PDFa year ago