automated metrics | BriefGPT

关键词automated metrics

搜索结果 - 30

ACLFavi-Score: 自动生成人工智能评估中的偏袒度量
研究探讨了用于生成输出评估的指标，发现大多数指标存在有利于特定文本生成系统的倾向性，并提出了一种新的评估指标 Favi-Score，该指标能够准确测量这种倾向性。
PDFa month ago
通过多阶段端到端方法增强 LLMs 的演示文稿生成
提出了一种多阶段的端到端模型，结合了 LLM 和 VLM，用于从文档中生成演示幻灯片，相比于现有的方法具有更好的自动指标和人类评估。
PDFa month ago
推动文本到图像模型评估中的地理包容性
通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。
PDF2 months ago
基于似然的大型语言模型评估偏差的缓解
大型语言模型广泛用于自然语言生成任务的自动评估指标，然而，由于句子中的表面差异（如词序和句子结构），可能会导致语言模型的可能性有所偏差，本文研究了基于语言模型的评估器中可能存在的可能性偏见，并提出了缓解可能性偏见的方法，该方法利用高度偏倚的
PDF4 months ago
ChatGPT 是否能与神经机器翻译匹敌？一项比较研究
通过比较 ChatGPT 和主流神经机器翻译（NMT）引擎将中文外交文本翻译成英文，本文评估了大型语言模型在翻译方面的能力。研究采用四个自动化度量和基于错误类型和六个分析指标的人工评估来检验 ChatGPT 和 NMT 引擎的翻译质量。研究
PDF6 months ago
ACL多项选择测试中的干扰项评估
对多选阅读理解测试中干扰项的质量进行自动评估，包括错误性、可信度和多样性的度量。
PDF8 months ago
Chainpoll：一种高效的 LLM 幻觉检测方法
基于大规模语言模型的幻觉检测方法 ChainPoll 以及用于评估幻觉检测的基准数据集 RealHall 的介绍和综合比较。
PDF8 months ago
哪种提示更具差异性？用于高效人工 LLM 评估的数据排序
通过度量方法，我们的研究旨在最小化人工评估所需的注释数量，从而提高评估质量并减少时间和成本。我们发现，这种方法有效地降低了模棱两可的结果，对于未来大型语言模型评估具有重要意义。
PDF8 months ago
利用大型语言模型进行文本风格转换评估
我们评估了不同的大型语言模型在文本风格转换评估中的性能并提出了输入提示的集成来增加评估的鲁棒性。
PDF10 months ago
什么是好的改写：自动评估是否有效？
汤姆的研究使用德国数据集对改写的质量进行了自动和专家语言学评估，以回答改写应该有多大的差异才能被视为可接受，以及是否可以仅使用自动化指标评估改写质量的问题。
PDFa year ago
从文本中合成艺术电影化图像
我们介绍了一种全自动的艺术电影画面生成方法，通过从文本描述中创建电影画面，尤其是在提示中涉及想象元素和艺术风格时，具有挑战性，因为这些图像的语义和动作的解释具有复杂性。
PDFa year ago
自动度量文本生成偏好评级中的错误校正
本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。
PDFa year ago
ACL模型分析与评估：歧义问题回答
研究 Question Answering 模型回答模糊问题的挑战，探讨模型 / 数据扩展和自动评估指标对模型质量的影响，并研究模型答案的证据根据，旨在提供有关当前方法局限性的宝贵见解。
PDFa year ago
基于点互信息度量和解码策略的文本对话生成中忠实度实现
本文提出了一种基于点互信息的新的响应语义度量指标，并将其应用于深度学习生成模型生成对话的评估和后续的响应生成过程中，可以获得更可信和真实的自动响应。
PDFa year ago
通过盲评审和文本分类算法比较 ChatGPT 生成的抽象概括和真实概括
本研究通过使用自动度量和盲审人员评估 ChatGPT 在编写摘要上的表现，同时构建自动文本分类器以检测 ChatGPT 生成的摘要，并发现虽然文本分类算法可以区分真实和生成的摘要，但人类无法区分真实摘要和 ChatGPT 生成的摘要。
PDFa year ago
ACL质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量
本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。
PDFa year ago
针对条件自然语言生成的分布感知度量
本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估，通过对多个生成的结果进行比较，以区分单一描述和多样性质的差异并提出一些结论。
PDF2 years ago
ACL利用常识和数据增强的目标导向对话响应生成
本文介绍了一种新的针对目标引导的响应生成技术，它使用共识知识概念的桥接路径作为中间步骤，实现对话系统转向目标句子的平滑过渡，用以创造非侵入式的建议或引入对话新话题，并说明了一种更可靠的评估指标，推进对话系统设计者对对话控制的更加有效实施。
PDF2 years ago
Minecraft 自动视域计算
本研究提出了一组基于建筑学理念的自动化指标（isovists 和空间语法）以从玩家角度计算特定游戏状态的度量标准，通过在 Minecraft 中生成的数据集中排名结果与人类评判相对性的分析，证明了这种指标可以作为测量特定时间和空间游戏体验的
PDF2 years ago
ACL基于神经度量的最小贝叶斯风险解码：高质量而非高模型概率
本篇论文研究神经机器翻译，提出使用最小贝叶斯风险解码优化翻译质量度量作为一种替代推论策略来优化自动翻译质量度量，实验结果表明，使用 BLEURT 作为质量度量指标产生的质量比传统 Beam-search 输出更好。
PDF3 years ago