- FamiCom: 评估任务无关性能的语言模型提示的进一步解谜
通过使用 FamiCom 这一修订度量,结合语言模型对提示的熟悉度以及任务的复杂性,能够更准确地估计任务无关性能,并在自动提示和演示选择方面的准确性方面超过了现有方法和基准超过 7.0%。
- 聪明的基准测试 AI 加速器 —— 以性能代表为基准
通过利用目标硬件架构和初始参数扫描,我们提出了一种新的性能建模方法,显着减少了训练样本的数量,同时保持较高的准确性。我们的方法针对单层估计达到 0.02% 的平均绝对百分比误差(MAPE),针对整个深度神经网络的估计达到 0.68% 的 M - PartIR: 机器学习 SPMD 划分策略的构建
现代大型神经网络(NN)的训练需要结合数据、模型或优化器分片等并行化策略。当策略变得越来越复杂时,分区工具需要具备 1)表达能力,以允许复合简单的策略,2)可预测性,以便分析性能估计。我们提出了 PartIR,一种 NN 分区系统的设计。P - 理解基于 FPGA 的空间加速对大型语言模型推理的潜力
通过对大型语言模型的空间加速进行研究,本文介绍了针对特定运算符或层的硬件单元专门化的方法,并通过数据流架构实现它们之间的直接通信,从而最小化片外内存访问延迟。研究通过在 AMD Alveo U280 FPGA 设备上实现 BERT 和 GP - ICCV距离在改善协变量偏移下的性能估计中起作用
考虑到协变量转移下测试样本与预期训练分布的距离,可以显著提高性能估计,通过引入 “距离检查” 来避免依赖于不可信任的模型输出以进行准确度估计。
- 竞技在线射击游戏中的行为玩家评级
研究比较了行为分级系统和三种主流分级系统对玩家实际表现的预测能力,并证明了使用行为分级系统进行配对可以实现更好的游戏体验。
- 关于解决离分布检测评估方案中的随机性的问题
本研究针对 Deep Neural Networks 对于训练集以外数据的表现会出现不可预测情况,提出 out-of-distribution detection 机制,并通过 Monte Carlo 方法推测性能,指出当前的 evalua - ICMLMandoline: 模型在分布偏移下的评估
本文提出了一种名为 Mandoline 的评估框架,该框架利用用户提供的切片函数通过重加权技术来解决源数据分布与目标数据分布存在偏移的问题,可以更准确地估算基于机器学习的模型在目标数据分布上的性能表现。
- CVPR带有神经架构比较器的对比神经架构搜索
本文提出了一种基于 Contrastive Neural Architecture Search (CTNAS) 的方法,通过比较不同网络结构的性能,使用神经架构比较器来计算基线结构的概率,并且在课程学习方式下不断优化基线结构,来优化神经架 - 开放式强化学习试验数据集和处理流程:朝着真实和可重复的离线评估
介绍了 Open Bandit Dataset 数据集和 Python 软件 Open Bandit Pipeline,可以用于评估虚拟策略的表现和不同 OPE 统计方法的比较,从而促进 OPE 研究的公正透明和可重复性。
- AAAI自动算法配置中的性能估计
本文探讨了自动算法配置 (AAC) 中的性能估计问题,首先证明了在实际设置中的通用最佳性能估计器,然后分别考虑了有限和无限配置空间,建立了估计误差的理论界限,并在四个涉及不同问题领域的算法配置情景中进行了广泛的实验验证。此外,本文还提出了加 - 准确的逐层解释能力估计
本文提出 ALICE Score,用于评估分类器的可信度,可在类别不平衡、超出分布范围和训练不足等情况下进行准确的评估,与其他置信度估计方法相比,具有显著的性能提升。
- 评估实时主动学习绩效的限制
本文研究了如何在不可靠的情况下评估主动学习算法在训练期间的性能,并提出了三个主要挑战:如何推导性能分布,如何保留标记子集的代表性,以及如何纠正由于智能选择策略而引起的抽样偏差。
- 神经网络架构搜索:综述
本文通过分类讨论搜索空间、搜索策略与性能估计策略三种维度,为神经架构自动搜索方法的存在研究提供了一个概述。
- 复合凸极小化的近端梯度法的最恶情况收敛速率
本文研究了求解由平滑强凸函数和可得到其 Proximal 算子的非光滑凸函数组成的函数和的最优收敛速度,并利用半定规划等工具,建立了 Proximal 梯度算法的准确最坏情况收敛速度,同时提出可将强凸性等条件放宽以保证相应的收敛速度,得到了 - IJCAI增量学习的快速交叉验证
本文提出了一种通用的基于增量学习算法的交叉验证 (Cross-validation) 的性能估计方法,并通过实验表明其在减少计算负担,以及对数据规模扩展和分布式实现上均具有良好的性能。