benchmarks | BriefGPT - AI 论文速递

关键词benchmarks

搜索结果 - 160

BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估
双向视觉语言组合性 (BiVLC) 数据集用于添加由合成文本生成的合成负向图像，从而产生两个图像到文本检索示例和两个文本到图像检索示例，发现当前多模态模型在文本到图像方向上表现不佳。
PDF20 days ago
MoleculeCLA: 通过计算化学配体 - 靶标结合分析重新思考分子基准
构建精确大规模的分子表示数据集，通过深度学习模型为药物发现的人工智能领域提供准确可靠的基准。
PDF21 days ago
AI 能在 JavaBench 上击败本科生的入门级 Java 作业吗？
通过比较 LML 的编码能力与学生的能力，研究发现在项目级别的 Java 编程中，LML 远远落后于学生，并提出了一种新的、覆盖广泛的评估方法。
PDF24 days ago
BiGGen Bench：一种用于精细评估语言模型的基准
通过 BiGGen Bench 的引入，对 77 个不同任务中的九种语言模型的生成能力进行了全面评估，并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。
PDF25 days ago
ACLHelloFresh: 在 X 社群笔记和维基百科编辑流中对真实世界人类编辑行为的 LLM 评估
设计 LLM 基准测试是具有挑战性的，HelloFresh 是一种基于实时数据生成的基准测试方法，可以解决测试数据污染和过拟合问题，并通过不断地生成新的评估数据来实现持续评估。
PDFa month ago
从 LLM 基准混合中获得群体智慧的 MixEval
提出了一种新的评估大型语言模型的方法 MixEval，通过混合现有的基准测试以匹配来自网络的查询与现有基准测试中的相似查询，建立了有效和可靠的 LLM 评估标准，进一步构建了 MixEval-Hard，为模型改进提供了更大的空间。
PDFa month ago
BELLS: 未来证据高效安全评估的框架
该研究介绍了用于检测大型语言模型系统中的异常迹象的输入输出保护装置，提出了评估这些保护装置的基准测试，并实施并分享了第一个下一代架构测试，以及相应的数据集的交互式可视化。
PDFa month ago
编码和控制长篇视频问答的全球语义
通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA
PDFa month ago
通用上下文学习基准测试
通过增加上下文和记忆状态的规模，以提高在上下文中学习和推广能力，与普通的上下文学习相比，泛化性上下文学习（GPICL）在广泛的任务范围内扩展学习视野，并从较低的零样本基线开始。
PDFa month ago
MHPP: 探索语言模型在基本代码生成之外的能力和局限性
最近大型语言模型（LLMs）在代码生成方面有了显著进展，但现有的基准测试无法全面评估 LLMs 在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试（HumanEval 和 MBPP），我们的研究发现由于质量、难度和细度的限制，这些
PDFa month ago
ACL在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集
我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。
PDF2 months ago
教育计划修复基准测试
为了促进竞争方法的公平比较和标准化，该研究提出了一个新颖的教育性程序修复基准，对两个高质量的编程数据集进行整理，引入一种新的评估度量指标 rouge@k 来评估修复质量，并评估了五种最近的模型以建立基础性能。
PDF2 months ago
比 ReLU 类激活函数显著更好的一类激活函数
介绍了两种新的激活函数，Cone 和 Parabolic-Cone，相较于常用的 ReLU 和 Sigmoidal 类激活函数，在 CIFAR-10 和 Imagenette 两个基准测试中明显表现更好。这些激活函数在有限区间内为正，且在区
PDF2 months ago
PhilHumans：面向个人健康的机器学习基准测试
利用机器学习在医疗保健中的应用具有改善患者预后、扩大医疗保健的覆盖范围和可负担性的潜力。我们提出了 Personal Health Interfaces Leveraging HUman-MAchine Natural interactio
PDF2 months ago
基於後門的可解釋 AI 評估方法的高保真度評估基準
我们提出了一个遵循可信度准则的基于后门攻击的可解释人工智能基准（BackX），并且通过使用我们的基准对现有方法进行了综合比较和评估，同时为防御后门攻击提供了指导。
PDF2 months ago
ChatGPT 能够进行解释性推理吗？作为归纳推理的基准测试
这篇论文提出了一套用于评估 AI 程序进行解释性推理能力的基准，使用这些基准来确定目前领先的生成式 AI 模型 ChatGPT 在进行解释性推理方面的能力。基准测试结果表明，ChatGPT 在多个领域中能够进行创造性的推理和评估推理，尽管其
PDF2 months ago
4DBInfer：面向关系数据库的图中心预测建模的 4D 性能评估工具箱
通过将多表数据集转化为图形并利用有效的子采样策略保留表格特性，以及输出基于这些输入子图的预测的具有相匹配归纳偏差的可训练模型，该研究试图解决关于关系型数据库 (RDBs) 的预测模型发展方面存在的问题，并提供了一个包含多尺度 RDB 数据集
PDF2 months ago
盲目图像超分辨率的联邦学习
将图像超分辨率与联邦学习相结合，从用户中直接学习真实世界中的退化，既不侵犯用户隐私，又可以在多个设备上进行优化。为了评估新的超分辨率方法，我们提出了新的基准测试，针对联邦设置中的不同分布退化类型和用户数量进行研究。
PDF2 months ago
检查 LLM 评估对基准分布假设的鲁棒性
基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成
PDF2 months ago
XL$^2$Bench：极长上下文理解与长距离依赖的基准测试
我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（
PDF3 months ago