automatic evaluation | BriefGPT

关键词automatic evaluation

搜索结果 - 65

基于上下文学习的低资源作者风格转移
本文提出了一种名为 STYLL 的方法，能够在 Reddit 上只有少量目标作者的样式的情况下进行低资源的作者风格转移任务，并通过作者风格表示嵌入和自动评估方法在该任务上优于 STRAP 和其他基线方法。
PDF2 years ago
ACL面向对话系统实用自动评估的双分图对话收集
本文介绍一种基于双分图的自动化对话系统评估方法，用于比较不公开系统，避免欺诈，并通过实验结果验证该方法与人的主观评价的相关性。
PDF2 years ago
利用学习奖励函数自动评估挖掘机操作员
本文研究使用自动化评估和强化学习在高昂的人工成本下教授挖掘机操作，包括考虑内部动态、安全标准和仿真环境中的学习策略，以实现更安全的操作。
PDF2 years ago
PoKE: 具有潜在变量的先验知识增强型情感支持对话
本文提出了一种基于先前知识增强的情感支持模型，利用记忆模式将编码的知识纳入解码器，并利用潜在变量来建模策略的一对多关系，并展示了其在自动评估和人类评估方面的优越性。
PDF2 years ago
WMT22 通用机器翻译任务的自动评估
本文介绍了第七届机器翻译会议的机器翻译任务自动评估，其中评估了 185 种系统，包括高资源到低资源语言对和从密切相关到远离的语言。自动度量标准 chrF、BLEU 和 COMET 可以相互补充以减轻解释性和准确性方面的限制，并凸显了当前最先
PDF2 years ago
机器翻译评估中的双向翻译再思考
本文探讨了如何在低资源情况下进行自动评估翻译，并提出使用往返翻译（round-trip translation）技术进行无参考自动评估的方法。我们发现，修改翻译模型中的复制机制可以使这种评估方法更准确。此外，我们还证明，往返翻译可以在多种机
PDF2 years ago
使用预训练的文本 - 语音模型进行自动韵律标注
本文提出了一种利用神经文本语音模型和预训练音频编码器从文本 - 音频数据自动提取韵律分界标签的方法，并表明这种方法与文本基线相比具有显着优势和可比性。同时，利用该方法训练的 TTS 系统略优于使用手动标注的系统。
PDF2 years ago
EMNLP近似负样本区分：给人工评价数据集注入新生命
本文提出了一种名为 Near-Negative Distinction（NND）的新颖和简单的自动评估方法，通过重新利用之前人类注释来建立 NLG 模型的偏好，我们发现 NND 在三个 NLG 任务（问题生成，问题回答和摘要）中取得了比标准
PDF2 years ago
通过交互问卷进行基于偏好的会议探索
本文提出了一种用于生成基于偏好的会议探索交互式问卷的端到端框架，通过自动生成问卷，使用户快速探索会议内容，并提出了自动评估策略，保证所生成的问题的答案的正确性和可能的探索深度覆盖源会议。
PDF2 years ago
NSF 未来方向研讨会关于自动对话评估的报告：研究方向和挑战
这是有关 NSF 自动对话评估未来方向研讨会的报告，该研讨会探讨了该领域的当前现状及其局限性，并提出了未来工作的有前途方向。
PDF2 years ago
抽象化摘要生成中的可微 N-gram 目标
本文提出了可微的 n-gram 目标，旨在缓解训练标准和评估标准之间的差异，该目标最大化匹配子序列的概率权重，在 CNN/DM 和 XSum 的抽象摘要数据集上提供了相当的 ROUGE 分数提高，该方法优于其他 n-gram 目标
PDF2 years ago
构建日语语法错误修正自动评估质量估计数据集
本研究针对日本语言的语法错误校正，通过构建手动评估的数据集，建立了自动评估模型，并进行了元评估以验证该数据集的实用性。
PDF2 years ago
EMNLP自动对话评估的用户响应和情感预测
本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。
PDF3 years ago
EMNLP评估风格迁移的评价指标：以多语言形式转移为例的案例研究
本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果，包含了葡萄牙语、法语和意大利语，这是这一领域第一个多语言评估的工作，提出了最佳实践，指出了几个与人类评测高度一致的、在多语言下表现良好的模型，期望协助加速风格
PDF3 years ago
ACL情感调控语言模型
该研究旨在生成具有多样情感的上下文感知语言，提出了一种受计算机视觉启发的调制层归一化技术，该技术可使我们利用大规模语言模型进行情感响应生成，并在 MojiTalk 数据集上进行自动和人工评估，其结果优于基础方法，同时保持多样性，流畅性和连贯
PDF3 years ago
CLIPScore：一种基于参照无关的图像字幕评估指标
自然语言和图片联合训练的 CLIP 模型可用于基于图像的字幕的评估过程中，而无需参考词，CLIPScore 作为一种新的无参考评估指标可以实现与人类判断的最高相关性。
PDF3 years ago
EMNLP自动对话系统评估：一种无模型离线策略评估方法
提出了一种名为 ENIGMA 的自动对话系统评估框架，该框架基于策略评估的最新进展，并且相较于现有的自动评估方法有更强的人类评估得分相关性。
PDF3 years ago
变形金刚时代小说的机器翻译
本研究基于神经机器翻译技术中的 Transformer 模型，对小说文学领域的英文进行自动翻译，通过与其他三种不同模型进行自动评估和手动评估，结果表明使用 domain-specific Transformer-based 系统在表现上要优
PDF4 years ago
预训练语言模型是否可应用于基础开放领域对话？
通过使用预训练语言模型，我们尝试研究知识相关对话生成的相关性，发现在使用仅包含少量知识对话的细调过程中，预训练语言模型可以超越需要外部知识的最先进的模型，在自动评估和人类判断方面表现更好。
PDF4 years ago
COLING教育中的个性化多模态反馈生成
本文介绍了一种个性化多模态反馈生成网络，通过引入模态门机制和个性化偏置机制，实现了自动评估学生作业的功能，并取得了明显的性能提升。模型在实际的 K-12 教育数据上表现出更准确和更多样化的反馈。
PDF4 years ago