benchmark tasks | BriefGPT - AI 论文速递

关键词benchmark tasks

搜索结果 - 29

储层计算基准：评述、分类和最佳实践
评估方法、基准任务和计算能力是无常规计算的沉积模型中的关键研究领域，对于这些系统的评估具有挑战性。本文回顾和批评了 Reservoir Computing 领域中使用的评估方法，提出了一种基准任务分类，回顾了多个应用于 Reservoir
PDF2 months ago
代理舰队：使用遗传粒子滤波器协同解决问题的大型语言模型
利用大型语言模型为代理人的一种新颖框架，动态调整探索策略的同时通过启发式函数优化探索与利用之间的权衡，实验证明其在 “Game of 24” 和 “Mini-Crosswords” 等基准任务上的效率和准确性优于以前提出的 “Tree-of
PDF2 months ago
RDR: 加强语言理解的总结、思考和应答方法
通过将重述、讨论和回应三个目标纳入神经网络流水线，我们的方法解决了自然语言理解中的内外知识误用问题，使得结果更加准确。
PDF7 months ago
组织病理学的领域特定优化和多样化自监督模型评估
建立和评估组织病理学基础模型在自我监督学习中的价值，并发现领域特定方法可以进一步提高性能。
PDF9 months ago
关于后向翻译的合成数据
通过理论和实证研究，我们确定了合成数据对回译神经机器翻译（NMT）性能的两个关键因素，即质量和重要性。基于我们的发现，我们提出了一种简单而有效的方法来生成合成数据，以更好地权衡这两个因素，从而为回译提供更好的性能。通过在 WMT14 的基准
PDF9 months ago
多分辨率傅里叶神经算子的主动学习
提出了多分辨率主动学习的 FNO（MRA-FNO）框架，用于降低 Fourier 神经运算符的数据成本，并提高学习效率。通过概率多分辨率 FNO 和集成蒙特卡洛方法开发了有效的后验推断算法，采用效用 - 成本比率最大化作为采集函数来获取新的
PDF9 months ago
OmniDrones：无人机控制中高效灵活的强化学习平台
该研究介绍了 OmniDrones，这是一个基于 Nvidia's Omniverse Isaac Sim 的用于无人机控制中强化学习的高效灵活平台。它采用自底向上的设计方法，让用户可以轻松设计和实验各种应用场景，并提供了一系列基准任务，从
PDF9 months ago
利用多个向量通道改善 E (n)- 等变图神经网络
我们提出了 E (n)- 等变图神经网络的一个自然扩展，它使用每个节点的多个等变向量。我们阐述了这种扩展，并展示了它在不同物理系统基准任务上提高了性能，同时几乎没有运行时间或参数数量上的差异。该多通道 EGNN 在 N 体带电粒子动力学、分
PDF10 months ago
WebArena：一个构建自主代理的真实网络环境
建立一个高度逼真和可重现的环境，专注于在网站上执行任务的智能代理，提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
PDFa year ago
EPIC Fields: 结合 3D 几何和视频理解
介绍了一个名为 EPIC Fields 的神经渲染数据集，能够通过附加 3D 相机信息，为图像和视频理解提供更好的数据和基准，同时提供了两个神经渲染和分割动态对象的基准任务。
PDFa year ago
ACLChatGPT 在生物医学任务中的评估：与微调生成变换器的零样本比较
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务（如关系提取、文档分类、问答和摘要）的性能，在拥有较小训练集的生物医学数据集中，zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型（如 BioGPT 和 Bio
PDFa year ago
SLUE Phase-2: 一个不同语种口语理解任务的基准套件
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决 SLU 评估领域的差距，为便于比较而发布了基准模型。
PDF2 years ago
IJCAI机器叙事阅读理解评估调查
该论文提出基于故事理论和阅读理解理论以及现有的机器故事阅读理解任务和数据集的分类方法，分析了评估任务之间的主要相似性和差异，并讨论了分类对新任务设计以及故事理解挑战的影响。
PDF2 years ago
使用易于操作的分子对接技术获得更好的配体设计基准
DOCKSTRING 是一款用于机器学习和药物开发的 Python 软件包，可以实现分子对接计算和降低对领域知识的需求。其包含了一个全面的数据集，方便实验多目标优化和迁移学习。基于分子对接评估结果可以帮助更好的设计药物候选物。
PDF3 years ago
基于时间的深度反演模型比较及神经伴随方法
本研究考虑如何解决一类通用的逆问题，通过使用深度学习等多种方法，通过随机快速生成搜索算法的方式，寻找可能的逆解空间，并通过一个新方法来得到最佳逆解。
PDF4 years ago
ICML评估强化学习算法的性能
本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。
PDF4 years ago
批评正则化回归
本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。
PDF4 years ago
ACL上下文嵌入：何时值得使用？
本研究旨在探究深度上下文嵌入（例如 BERT）相对于传统预训练嵌入（例如 GloVe）和一个更简单的基准（随机词嵌入）在训练集大小和语言任务的语言特性等方面，性能是否有大幅提升。我们发现，这两种更简单的基准线上也能匹配行业规模的数据中的上下
PDF4 years ago
理解变分互信息估计器的局限性
论文提出并实现了一种新的基于神经网络的相互信息估计方法，该方法能够有效地减少方差并针对基准测试任务展现出更好的偏差 - 方差权衡性能。
PDF5 years ago
ROBEL: 用低成本机器人学习的机器人基准测试
ROBEL 平台介绍了 D'Claw 和 D'Kitty 两种机器人，旨在加速强化学习研究，提供了可持续硬件强化学习的任务目标，并提供多种基于学习的方法的基准得分，可以在 www.roboticsbenchmarks.org 上获得所有必要
PDF5 years ago