benchmarks | BriefGPT - AI 论文速递

关键词benchmarks

搜索结果 - 160

与机器人对话：拓宽参与和研究的 SLIVAR 社区提案
自然人类语言与机器的交互能力已经不仅仅是司空见惯，而且是被期望的。下一步不仅仅是文本界面，而是语音界面；不仅仅与电脑，而是与包括机器人在内的所有机器的交互。本文记录了近期与机器人的口头对话这一快速发展领域的历史，并提出了三项建议：第一是教育
PDF3 months ago
排行榜排名高 = 编码能力一直出众吗？通过 LLM 实现演进的编码基准评估
通过 EvoEval 基准套件的引入，评估 LLM 在编码方面的能力，我们的研究展示了 51 个 LLM 的性能显著下降（平均下降 39.4%），从而显示了现有基准的潜在过拟合，并展示了指令跟随模型在重述或微小更改时的脆弱性以及学习问题组成
PDF3 months ago
评估大型语言模型的程序执行运行时行为
本文提出了一个名为 REval 的框架，用于评估代码 LLM 的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码 LLM 的代码推
PDF3 months ago
COLING大型语言模型的日本金融基准构建
本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。
PDF3 months ago
OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试
开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。
PDF4 months ago
Gabor 引导的变换器用于单图像去雨
通过引入 Gabor 滤波器，利用 Gabor 引导转换器（Gabformer）来增强局部纹理特征的聚焦，改善模型对噪声的鲁棒性，并在基准测试中表现优于最先进的方法。
PDF4 months ago
DACO：应用驱动的全面数据分析
通过利用语言模型的代码生成能力和多轮提示技术，我们提出了 DACO-RL 算法，在数据分析领域生成高质量答案，通过人工批注验证该算法在 57.72% 的情况下生成更有帮助的答案。
PDF4 months ago
Craftax: 一个开放式强化学习的快速基准
通过引入 Craftax 作为新的基准，研究人员可以在复杂的无限环境中进行实验，而无需大量的计算资源。
PDF4 months ago
tinyBenchmarks: 用较少的样例评估 LLM
通过研究 LLM 在各种关键基准测试中的表现，我们探索了减少 LLM 性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。
PDF4 months ago
GATE X-E：弱性别语言的性别平等翻译挑战集
神经机器翻译在质量和应用方面不断改进，但性别偏见的无意中延续仍是一个重要问题，尤其缺乏评估和减轻策略的基准，本研究通过引入 GATE X-E 扩展了 GATE 语料库，提供了从土耳其语、匈牙利语、芬兰语和波斯语到英语的人工翻译及其女性化、男
PDF4 months ago
KetGPT -- 基于 Transformer 的量子电路数据增强
利用 Transformer 机器学习架构生成更真实的量子线路数据集，通过 KetGPT 工具生成以人类编写的基于算法的代码结构为基础的 OpenQASM 语言的合成线路，可用于评估量子系统的性能，并为 AI 驱动的量子编译器和系统做出重要
PDF5 months ago
GPU 上的 LTL 学习
使用 GPU 加速的基于枚举程序合成的 LTL 学习器在处理追踪数据时比现有技术要快 46 倍，并且可以处理比现有学习器多 2048 倍的追踪数据。
PDF5 months ago
对控制权空洞越狱的强制拒绝
大型语言模型（LLMs）的崛起引起了对 “越狱” 存在的关注，本研究通过使用高质量问题集和更准确的评分算法，提出了一个更好地区分有效和无效越狱的新基准，结果表明这种新的评分方案更符合人类对回答质量和越狱有效性的判断。
PDF5 months ago
计算具有统一行动成本的计划
在许多实际的规划应用中，代理人可能对寻找其动作成本尽可能均匀的计划感兴趣。本文将三个一致性度量指标应用于自动规划，并引入基于规划的编译方法，允许按词典顺序优化动作成本总和和动作成本的均匀性。在知名和新颖的规划基准实验结果中显示，可以有效地解
PDF5 months ago
EMNLPBUSTER: 一个 “BUSiness Transaction Entity Recognition” 数据集
自然语言处理在过去几年取得了重大突破，将这些进展转化为实际商业案例具有挑战性。其中一个原因在于流行基准与实际数据之间的脱节。缺乏监督、类别不平衡、噪声数据和长文档常常影响金融、法律和健康等垂直领域的实际问题。为了支持面向行业的研究，我们提出
PDF5 months ago
多元一致性路线图
AI 系统的多元对齐是一个重要问题，本文提出了一个在语言模型中测试多元对齐的路线图，并通过多个实验和其他工作的经验证明了当前的对齐技术在多元对齐方面存在局限性，并强调了对多元对齐的进一步研究的需求。
PDF5 months ago
MOMENT：一种开放的时间序列基础模型家族
我们介绍 MOMENT，这是一款用于一般时间序列分析的开源基础模型系列。我们在时间序列数据上进行大型模型的预训练面临挑战：(1) 缺少一个大规模的连贯的公共时间序列数据库，(2) 多样化的时间序列特征使得多数据集训练变得困难，以及 (3)
PDF5 months ago
规避语言模型的数据污染检测 (过于) 简单
大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而，这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合，从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题，但它们忽视了恶意模型提供者有意回避检测的可能性
PDF5 months ago
从实体中心的视角重新思考预训练的文本布局模型的评估
我们介绍了一个用于评估 PTLMs 的信息提取能力的理想基准，并引入了 EC-FUNSD，一个用于评估语义实体识别和实体链接的实体中心基准，该数据集包含多种文档布局格式和语义驱动实体及其关系的注释。实验结果表明，最先进的 PTLMs 在现有
PDF5 months ago
ACL谈判对话系统综述
综述了最近关于谈判对话系统的研究，包括任务、评估和方法论，探讨了多模态、多方和跨文化谈判情景，并旨在为社区提供系统的谈判对话系统概述以及为未来研究提供启示。
PDF5 months ago