- 我们在忘却方面取得进展吗?来自首个 NeurIPS 忘却竞赛的发现
我们提供了第一个关于 unlearning 的 NeurIPS 竞赛结果,分析了顶尖解决方案并深入讨论了 benchmarking 和算法开发在这一重要领域的进展。
- ICLR组合推理问题中层级搜索的重点是什么?
有效应对组合推理问题,尤其是著名的 NP 难问题,对 AI 研究来说仍然是一个重大挑战。最近的工作致力于通过引入分层高级搜索策略(即子目标方法)来提高规划效果。然而,它们在与传统的低级规划器的性能对比方面存在不一致性,引发了对其应用范围的疑 - ACL法律领域中法学硕士课程的评估伦理
大型语言模型在法律领域的适用性和性能的综合评估对学术讨论具有重要贡献。
- 自然语言处理竞赛中系统性能分析
合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性,但是以八个自然语言竞赛为案例进行了说明,涉及分类和回归问题。所提出的方法具有多种优势,包括与修正机制的即插即用比较和置信区间的包含。此 - 推进生成模型评估:OCR 系统中逼真图像合成和比较的新算法
本研究提出了一种新颖的算法,主要针对生成模型中合成图像的真实性进行客观评估。该算法通过改进 Fréchet Inception Distance(FID)得分,显著提高了评估方法的精确性,特别针对生成和评估阿拉伯手写数字的真实图像的挑战。我 - ChatGPT 是否比人类更具同理心?
研究论文通过对 ChatGPT 及其最新版本 GPT-4 与人类生成的情感场景回应能力进行比较,探究了 ChatGPT 在回应不同情绪场景(正面和负面)时的共情水平。研究采用一项涉及 600 名参与者的组间研究来评估 ChatGPT 和人类 - 评估和改进口语理解中的持续学习
我们提出了一种评估方法,能够统一评估在连续学习中的稳定性、可塑性和泛化能力,并展示了引入不同的知识蒸馏方法如何改善语音语言理解模型的这三个性质方面。我们进一步展示了我们提出的指标更敏感地捕捉到连续学习中任务顺序的影响,因此更适合实际应用场景 - MERA: 俄语中的综合语言水平评估
通过引入一个新的用于评估基础模型的多模态俄语架构 (MERA),本文介绍了一种在零点和少点固定指令设置下评估基础模型和语言模型的方法论,该方法论可以扩展到其他模态,在评估开放式语言模型的基线时发现其仍远落后于人类水平。
- 征服旗帜:利用大型语言模型揭示数据洞察
利用大型语言模型自动发现数据中的洞察力并评估其能力的研究。
- 量化文本到图像生成模型中的偏差
对比四种最新的文本到图像生成模型的基准偏差特征与各自变体,在社会偏见和一般偏见方面提出了三种评估方法,并将该方法应用于字幕图像数据集以衡量其偏见。
- AAAI一年间能发生多大变化?重新审视多智能体强化学习中的评估
确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域,虽然取得了令人激动的进展,但近期在合作设置方面,它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题, - 评估生成式即时信息检索
通过调查信息检索和自然语言处理文献,识别生成式检索中的搜索任务和系统架构,开发相应的用户模型并研究其操作化,该文理论分析为生成式即时检索系统的评估提供了基础和新洞察。
- ACL反事实编辑器的反事实分析:一种基于回译的方法
通过提出一个新的反向翻译的评估方法,我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析,并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。
- CVPREVREAL: 事件驱动视频重建的全面基准和分析套件
本文提出了 EVREAL 框架,并针对当前事件感知视觉领域中的基于深度学习的视频重建方法进行了统一的评价,旨在为不同的方法提供比较基础和统一的评价标准,提供对这些方法在不同场景下,挑战性场景和下游任务下性能的宝贵见解。
- CVPRSpring:一个高分辨率、高细节的场景流、光流和立体数据集与基准
该研究介绍了一种基于计算机生成的高分辨率模拟场景的 Spring 基准测试,以评估动态和立体图像的精细结构的质量,提出了新的评估方法基于超分辨率的 UHD Ground Truth,其可以提供更详细的性能统计信息和不同图像区域的精度,结果表 - 解释的普适性
本文提出了一种新的可解释性方法评估方法,从可泛化性的角度出发,使用自编码器学习生成解释的分布,并观察其可学性和学习分布特征的合理性;同时进行了 LIME 可解释性方法的直观演示,以及对多个流行可解释性方法的数量评估,并发现使用 Smooth - Explainer Divergence Scores (EDS): 一些事后解释可能有效于检测未知的虚假相关性
提出了用信息理论方法评价 Deep Neural Networks 中的解释器的新方法,并发现 post-hoc 解释器对 DNN 与假象的依赖性具有相当大的信息量,但这种信息常常难以察觉。
- 监督式特征排名算法的新型评估方法
本文提出了一种新的评估方法,使用合成数据集评估特征重要性得分,并构建了一个名为 fseval 的 Python 基准测试框架,该框架允许在 HPC 系统上并行和分布式地执行实验。通过与在线平台 Weights and Biases 集成,可 - ACL非自回归机器翻译:速度不像看起来那么快
本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究,并提出了对非自回归模型的进一步实验和评测。
- ACLSUPERB-SG: 语音处理语义与生成能力的增强通用性能基准
介绍 SUPERB-SG - 一个新的基准测试, 用于评估预训练模型的语义和生成能力,并使用轻量级方法测试预训练模型所学习表示的鲁棒性,以更全面地了解模型的效果和通用性。