automatic evaluation | BriefGPT

关键词automatic evaluation

搜索结果 - 65

评估大型语言模型在故事结局生成中的指令遵循能力
通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。
PDF5 days ago
FinTruthQA：评估金融信息披露质量的基准数据集
建立了一个名为 FinTruthQA 的基准，用于自动评估金融问答数据中信息披露质量，为会计和金融领域的技术研究和数据驱动的决策提供了坚实的基础。
PDF12 days ago
ACL揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架
通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言
PDFa month ago
LLM 作为自恋评估者：当自我膨胀影响评分
本研究探讨了自然语言处理领域中生成文本内容的自动评估问题，特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差，并揭示出在无参考摘要的情况下，这种评估指标可能受到潜在偏见的影响，强调未来需要开发更可靠的评估
PDF7 months ago
利用词语猜测游戏评估大型语言模型的智能
通过使用单词猜谜游戏评估 LLM 的智能性能，本研究提出了 DEEP 和 SpyGame 两个评估框架，能够有效评估各种 LLM 的能力，并捕捉其适应新情境和战略性沟通的能力。
PDF8 months ago
生成模型的自动评估与指令调优
基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。
PDF8 months ago
ACL基于解码器为基础的语言模型的文本生成自动评估方法探索
基于大型编码器和解码器语言模型的自动评估方法在文本生成任务中表现比调整后的编码器模型差，研究还发现解码器模型关注于表面字词序列而忽略了意义，同时发现调整后的解码器模型难以识别细粒度语义差异。
PDF8 months ago
EMNLP简化水平评估（SLE）：用于句子简化的无参考学习简化指标
自动评估句子简化仍然是一个具有挑战性的问题，我们提出了一种新的学习评估度量 (SLE)，该度量侧重于简化，与人类判断相关性方面表现优越。
PDF9 months ago
利用大型语言模型改进自动 VQA 评估
借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
PDF9 months ago
增强训练在自动化论文评分中的具体方法
本研究提出了一系列的数据增强操作，用于训练和测试自动评分模型以学习被先前研究忽视的特征和功能，同时在 Automated Student Assessment Prize 数据集中实现了最先进的性能。
PDF10 months ago
错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过
PDF10 months ago
ICCVFunnyBirds：用于可解释 AI 方法的基于部件分析的合成视觉数据集
通过使用一个名为 FunnyBirds 的新型合成视觉数据集以及相应的自动评估协议，我们解决了解释性人工智能（XAI）领域中的一个挑战，该领域旨在揭示复杂深度神经模型的内部工作方式。使用我们的工具，我们对 24 种不同的神经模型和 XAI
PDFa year ago
DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述
本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。
PDFa year ago
基于两两比较的 MOS 预测
提出了基于配对比较的 MOS 预测框架，并利用 C-Mixup 算法增强其泛化性能，实验结果表明该框架在语音质量的排名准确性上优于当前基准，说明该框架对于提高语音质量排名的准确性具有改进作用。
PDFa year ago
ACLAlignScore: 用统一的对齐函数评估实际一致性
本文提出了一个新的综合指标 AlignScore，基于信息对齐来评估各种实际不一致性场景，包含了 7 个知名任务的 4.7M 数据来源的统一训练框架，重点在于我们进行了大量的实验，得出 AlignScore 在测试中的显著优势，且能够匹敌比
PDFa year ago
使用下一句预测和互信息在潜空间中评估开放领域对话
提出一种利用条件变分自编码器和下一句预测目标来处理开放领域对话的评估方法，该方法在潜空间中运用互信息建模以考虑文本语义相似性，实验证明这种学习基方法在处理含有语义不同的多个恰当回复时优于其他模型。
PDFa year ago
LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估
本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基
PDFa year ago
INSTRUCTSCORE：自动反馈的可解释文本生成评估方法
该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET2
PDFa year ago
你所看到的就是你所读到的？—— 改进文本 - 图像对齐评估
本文研究了文本和对应图像是否语义对齐这一问题，提出了使用人类判断和自动化方法来确定文本 - 图像对齐的方式，本文改进了以前的方法，并提出了一种新的方法，它可以定位图像和给定文本的特定不对齐部分，并将其应用于自动重新排列生成的文本到图像的候选
PDFa year ago
极大预训练语言模型能否通过少量示例学习叙事？
本文对使用 VLPLMs 和 SOTA 模型在三个不同的数据集上进行的故事生成能力进行了自动和人为评估，结果表明 VLPLMs 生成的故事比其他故事生成模型更高质量，有一定程度上的过人之处，但也揭示了在涉及世界知识的情况下容易 “抄袭” 真
PDFa year ago