- 文本到视频生成模型的评估:动态视角
我们在本研究中提出了一种名为 DEVIL 的有效评估协议,它以动态维度评估文本到视频 (T2V) 生成模型,通过建立一个新的基准和动态分数,我们使用三个度量标准:动态范围、动态可控性和基于动态的质量来综合评估每个生成视频的动态性,并展示其潜 - NerfBaselines:新视角综合方法的一致可重现评估
针对新颖视角合成的问题,我们提出了一个名为 NerfBaselines 的框架来解决评估方法不一致、安装困难以及难以推广到新颖三维场景等问题,并通过实验证实了该框架的可行性。
- 如何在数据集间推广 SER 模型?一个全面的基准测试
通过整合多个数据集、解决数据分布不均衡以及评估协议,本研究旨在推进语音情感识别技术的发展,以实现人机交互的增强。
- 通过标准基线和评估披露离线多智体增强学习中进展的幻觉
离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线 MARL 研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线 MARL 研究,确 - 医学图像分析中的外域检测:一项调查
深度学习在计算机辅助诊断中得到了应用,但在实际临床场景中可能遇到分布偏移导致的静默失败问题,而最近的研究则探索了各种解决方案,包括分类和评估协议,以及缺乏探索的研究方向。
- 大规模语言模型的持续学习:一项综合调研
对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.
- 阿波罗尼奥:以个人资料为中心的对话代理
该研究提出一种框架,将用户个性化纳入对话代理中,通过分析和组织用户的查询和响应形成结构化用户资料,以提供个性化和更精确的响应,并提出了一系列评估协议来衡量个性化程度。
- 医学图像分类的深度学习模型泛化
近年来,我们不断发展了大量用于医学图像分析的深度学习模型,但仍然存在诸多挑战,如模型泛化性能、性能下降原因和如何克服性能下降等。本研究回顾了基于深度学习的分类模型的泛化方法,并讨论了未来的挑战,包括改进评估协议和基准以及实现稳健、泛化的医学 - ACL预测概率的解释:模型置信度还是人工标签变异性?
研究纸的主要议题和研究领域是 NLP 系统的不确定性评估,并讨论了预测分布对于模型信心和人类标签变化的指示的两种不同观点,推荐工具和展示了关于预测和人类标签不确定性的解耦表示的令人兴奋的方向。
- COLINGDrBenchmark:法国生物医学领域的大型语言理解评估基准
首次公开提供的法语生物医学语言理解基准 DrBenchmark,评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能,以及英语特定的 MLMs 来评估它们的跨语言能力。
- 持续学习是否为现实世界的挑战做好准备?
通过使用模拟真实世界条件的新实验协议,本文验证了关于连续学习的假设,并评估迄今取得的进展。结果表明,考虑到所有方法均表现不佳,明显偏离联合离线训练的上限,这对现实环境中的现有方法的适用性提出了问题。本文旨在通过新的实验协议来倡导采用连续学习 - PromptBench: 一个用于评估大型语言模型的统一库
评估大规模语言模型(LLMs)的关键是评估其性能并减轻潜在的安全风险。本文介绍了 PromptBench,一个用于评估 LLMs 的统一库,包括关键组件:提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。Prom - I-PHYRE:交互式物理推理
为了解决现有学习算法与人类表现之间的差距并强调增强代理人的交互式物理推理能力的重要性,我们介绍了 I-PHYRE 框架,该框架要求代理人同时展示直觉的物理推理、多步规划和原位干预,通过代表性场景的互动促进学习。
- 对 6DoF 物体位姿跟踪的更全面评估
本论文提出了一个统一的基准测试用于解决之前在 6 自由度物体位姿跟踪领域发展中出现的问题,并通过多视角多物体全局位姿细化方法改进了 YCBV 数据集的标注,从而使得方法之间能够公平比较。实验证实了所提出的全局位姿细化方法的精确性和可靠性,并 - StreamMapNet:面向矢量化在线高清地图构建的流式映射网络
StreamMapNet 是一种能进行长序列时间建模视频的新型在线地图制作方法,能够在广泛感知范围内构建具有高稳定性的大范围本地高清地图,并解决了现有方法的局限性,其在所有设置下均明显优于现有方法,同时保持 14.2FPS 的在线推理速度。
- 匿名化语音:评估和设计说话人匿名化技术
该论文讨论了语音用户界面的增长,以及由此带来的语音数据收集和存储问题。研究提出了匿名化语音和度量匿名程度的解决方案,并介绍了评估协议需要考虑的挑战,最后探讨了一种新的攻击方法以逆转匿名化。
- 用于时态图机器学习的时态图基准测试
Temporal Graph Benchmark 是一个收集了各种涉及社交、贸易、交通等网络领域的大规模数据集,用于实现机器学习模型在时间图上的现实、可重复和强大的评估。此外,该研究表明对于动态节点属性预测任务,简单的方法往往比现有的时间图 - 自动驾驶的轨迹预测中真正重要的因素是什么?
论文指出,当前轨迹预测模型的评估协议存在瑕疵,忽略了数据集和真实驾驶场景之间的动态差异以及预测模型的计算效率。为此,作者提出了一种基于任务的交互式评估方法,以更准确地反映轨迹预测在自动驾驶中的有效性。
- 对对抗传递性的可靠评估
本文重新评估了 12 种常见的对抗样本转移攻击方法,得出结论:对抗转移性经常被高估,在不同的流行模型之间不存在能够传递的单个对抗样本,并提出了一个可靠的基准,包括三个评估协议,以便未来的研究。
- ICML关于测试时适应性的陷阱
本文提出了针对测试时间适应(TTA)的测试基准 TTAB,通过实验表明:在线批次依赖性使得选择适当的超参数尤其是选择模型极为困难,TTA 的有效性取决于模型的质量和属性,并且即使在最优算法条件下,现有方法也无法处理所有常见类型的分布转移,因