evaluation suite | BriefGPT

关键词evaluation suite

搜索结果 - 12

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览
多模态大语言模型（MLLMs）在实际任务（如分析科学论文或财务报告）中应用图标理解起着重要作用。然而，现有数据集通常只关注模板化问题的简化和同质化图表，导致对进展的过于乐观的衡量。我们在这项工作中提出了 CharXiv，这是一个综合评估套件
PDF8 days ago
奇幻版权之兽及其 (不) 生成方法
最近的研究表明，图像和视频生成模型可以通过其训练数据中的版权内容生成相关内容，因此引发了严重的版权侵权问题。特别是版权角色对图像生成服务构成了巨大挑战，至少有一起诉讼已经基于生成这些角色获得了赔偿。然而，目前还很少有研究对这个问题进行了实证
PDF14 days ago
ACL从零到英雄：冷启动异常检测
本文研究冷启动情况下的异常检测问题，通过将零样本学习与含有异常的少量观测相结合，提出了一种能够适应这一情况的新方法 ColdFusion，并提供了相应的评估套件。
PDFa month ago
使用直接偏好头进行语言模型的推理时间对齐
通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。
PDFa month ago
EMNLPAMR 解析远未解决：GrAPES，AMR 解析评估套件
我们提出了 Granular AMR Parsing Evaluation Suite (GrAPES)，这是一个用于 Abstract Meaning Representation (AMR) 解析的挑战集合，伴随着相应的评估指标。我们的
PDF7 months ago
OYXOY：用于现代希腊语的现代自然语言处理测试套件
本论文旨在为希腊自然语言处理（Greek NLP）领域开发一个基于语言学动机和技术相关的评估套件，通过引入四个专家验证的评估任务来实现这一目标，这些任务特别针对自然语言推理、词义消歧（通过示例比较或意义选择）和隐喻检测。同时，我们贡献了两个
PDF10 months ago
OpenFlamingo: 训练大规模自回归视觉语言模型的开源框架
OpenFlamingo 是一系列从 3B 到 9B 参数的自回归视觉 - 语言模型，旨在复制 DeepMind 的 Flamingo 模型。通过在七个视觉 - 语言数据集上进行评估，OpenFlamingo 模型的性能平均达到了 Flam
PDFa year ago
L-Eval: 长上下文语言模型的标准化评估实施
我们提出了评估长上下文语言模型的标准化评估方法，开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval，经过作者手工注释和检查。结果表明，开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能，其中 LLa
PDFa year ago
InstructEval: 指令选择方法的系统评估
通过实验和评估，我们发现手写的命令和简单的命令通常比自动命令诱导方法更适用于 ICL，指出后者的缺乏泛化性。
PDFa year ago
ADATIME：面向时间序列数据领域自适应的基准套件
我们开发了 ADATIME 评估套件，通过对 10 种最新颖的域适应方法在 20 个跨域场景下的四个代表性数据集的广泛实验来系统地和公平地评估不同的域适应方法在时间序列数据上的成功应用，并发现了可以根据实际模型选择方法选择超参数，并为该领域
PDF2 years ago
ICML使用 Melting Pot 进行可扩展的多智能体强化学习评估
本论文提出了一种名为 Melting Pot 的 MARL 评估套件，旨在评估新情况下的泛化能力，并使用强化学习降低开发新测试场景所需的人力成本。该套件由 80 个测试场景组成，覆盖了社交困境、互惠、资源共享和任务划分等广泛的研究领域，通过
PDF3 years ago
ACL仍是个烦人的问题：评估文本表示在词组合成中的表现
本研究通过测试多种文本表示模型的性能，发现与静态词嵌入相比，上下文有关的单词表示模型对于检测含义转移等方面的应对能力更强，但在获取暗含信息方面，其表现仍远远不及人类水平。研究者设计的包含 5 个涉及词汇组合效应的任务的评估套件可用于提高此类
PDF5 years ago