- 链接预测中的数值文字:模型和数据集的关键审查
我们提出了一种评估包含数字文字的 LP 模型的方法,并通过新的合成数据集和数据集切割策略来研究现有数据集的潜在问题,发现许多模型未充分利用文字信息并可能依赖额外参数来提高性能。我们的研究强调了发布新模型和数据集时需要进行更广泛的评估。
- AutoRG-Brain: 脑 MRI 的基于语境的报告生成
自动报告生成、MRI 解读、数据集构建、系统设计、评估
- 半监督基于对比学习框架的参考引导素描提取
我们提出了一种半监督的多模态素描提取方法,能够通过非配对数据训练来模仿给定参考素描的风格,并在定量和定性评估中优于最先进的素描提取方法和非配对图像翻译方法。
- 狼人竞技场:社交推理学的语言模型评估案例研究
Werewolf Arena 是一个评估大型语言模型的新框架,通过经典社交推理游戏狼人对 LLMs 进行评估。该框架引入了基于竞标的动态轮流发言系统,展示了 Gemini 和 GPT 模型在战略推理和交流方面的差异。这些发现突出了 Were - LLMs 作为函数逼近器:术语、分类和评估问题
自然语言处理从建模特定任务快速转向使用更一般的预训练模型,并将其微调为特定任务,现在我们似乎拥有了本质上具有广义模型特性的模型。本文认为这种模型模型失去了清晰度,导致了与其评估优点和缺点无关的类似 “人工通用智能” 的隐喻,因此建议从其近似 - TTSDS -- 文本至语音分布评分
我们提出了一种综合多个因素评估合成语音质量的方法,包括韵律、说话人身份和可懂性,在 Benchamrk 测试后发现我们的得分与人类评估具有强相关性。
- 公平感知图学习基准
该研究论文提出了一个综合性基准测试,通过对十种代表性公平感知的图学习方法进行系统评估,从多个角度评估这些方法的群体公平性、个体公平性、不同公平性标准之间的平衡以及计算效率,并深入分析现有方法的优点和局限性,为公平感知的图学习方法在实际应用中 - AI 剧院的奥斯卡:关于角色扮演与语言模型的调查
该调查研究了从早期基于角色的模型到由大型语言模型(LLMs)推动的高级角色驱动模拟的蓬勃发展的领域,提供了一个全面的设计这些系统的关键组成部分的分类法,包括数据、模型和对齐、代理架构和评估,并指出了未来研究的方向。
- DOCBENCH:一种用于评估基于 LLM 的文档阅读系统的基准
DocBench 旨在建立一个标准化的基准,以在不同的实际场景下评估基于 LLM 的文档阅读系统,从而指导未来在这个研究领域的进一步发展。
- PredBench: 多学科时空预测性能评估
本研究介绍了 PredBench,这是一个量身定制的基准测试,用于对时空预测网络进行整体评估。通过大规模实验、统一和适当的实验设置以及多维评估,PredBench 弥补了这一领域标准化框架的不足。通过与多个应用领域的 15 个不同数据集结合 - AutoBencher: 为语言模型创建突出、新颖、困难的数据集
通过 AutoBencher 自动搜索数据集,我们创造了用于数学、多语言和知识密集型问答的数据集,这些数据集平均比现有的基准测试更新颖和更困难。同时,我们发现现有基准测试无法捕捉到语言模型中特定的知识缺口,如 Gemini Pro 在关于二 - 超越指令跟随:评估大型语言模型的规则跟随能力
本文通过澄清规则遵循概念,并创建全方位评估规则遵循能力的综合基准 RuleBench,对多样化的大型语言模型进行了实验。结果表明,目前大型语言模型在规则遵循方面仍存在限制,并提供了对大型语言模型在成为更好的规则遵循智能代理方面的改进见解。
- 超越基准测试:大型语言模型评估和评估的新范式
我们提出了一种新的大语言模型(LLMs)测评范式 ——Benchmarking-Evaluation-Assessment,将 LLMs 的评估位置从 “考试室” 转移到 “医院”,通过对 LLMs 进行 “体检”,利用特定任务解决作为评估 - 大型语言模型下的阿拉伯语自动故事生成
使用大型语言模型,我们关注阿拉伯语故事生成任务,通过机器翻译和 GPT-4 训练数据来生成适合阿拉伯语环境的故事,经过人工和自动评估,证明我们的模型能够生成符合要求的连贯故事。
- 测试任务训练对评估和发现的干扰
通过对测试任务的训练,我们研究了大型语言模型评估中的一个基本问题。我们证明在测试任务上训练会混淆相对模型评估和对新出现能力的声明,并提出了一种有效的方法来调整对测试任务的训练。我们发现,一旦调整了测试任务的训练,新出现行为的实例基本消失。这 - ACLLLMBox:大规模语言模型的综合库
为了促进对大型语言模型(LLMs)的研究,本文提出了一个全面统一的库 LLMBox,以便于 LLMs 的开发、使用和评估。该库具有统一的数据接口、全面的评估、用户友好性和高效性等特点。通过这个库,用户可以轻松复现现有方法、训练新模型,并进行 - 评估大型语言模型的系统调查与批判性综述:挑战、局限性与建议
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了 LLM 评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保 - 多约束复杂指令跟踪的基准测试
LLMs' ability to follow complex instructions composed of multiple constraints is evaluated using ComplexBench, a new ben - 量化如何影响多语言 LLMs?
量化、多语言 LLMs 的性能、语言、评估
- 星象馆:将文字转换为结构化规划语言的严格基准
对于自然语言任务描述生成 PDDL 代码的能力,存在评估困难,因此引入了一个基准测试数据集 benchmarkName,包括 132,037 个文本到 PDDL 对,通过对几种语言模型的评估表明了该任务的复杂性。