- 自主驾驶的户外激光雷达感知质量评估指导影像
本研究提出了一种新颖的基于图像引导的室外点云质量评估算法(IGO-PQA),该算法利用点云数据、对应的 RGB 环境图像和车辆目标真值注释生成基于单帧 LiDAR 点云的整体质量得分,并通过变换器实现无参考室外点云质量评估的直接预测。评估结 - 上下文动态定价与综合估值模型中的极小化最优性
通过可观察的产品特征和顾客特征,提出一种新算法,通过离散化未知噪声分布和上限置信区间与分层数据分区技术的组合,有效地调节每个周期中的懊悔,从而控制与定价决策相关的懊悔,实现极小极大优化。
- 强化学习的广义控制论方法:理论与算法
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
- ICML优化复杂绩效指标的通用在线算法
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾,并通过实证研究验证了所 - KDD图上标准切割的扩展层次结构
通过引入第一个实际有效的算法来计算扩展者分解及其层级,我们在大量的实验中展示了我们基于扩展者的算法在解决归一化割图聚类问题上相对于当前最先进的解决方案在解决质量上大大优于各种图类,如引用、电子邮件、社交网络或网络图,并且在运行时间上仍然具有 - ICML使旧事焕新:差分隐私聚类的统一算法
20 年前的算法经过轻微修改,适用于各种隐私模型,匹配几乎所有已知结果,改进了一些结果并扩展到新的隐私模型,即连续观测环境。
- 机器学习优化算法和元启发式算法的 315 个基准和测试函数的综述与数学及可视化描述
综述 300 多个用于评估优化和元启发式算法的基准函数,列出了最常用的 25 个函数,并提出了两个新颖、高维、动态且具有挑战性的函数用于测试新算法,同时指出了当前基准化方法的不足之处,并提出了未来研究的方向。
- ICML信息熵增强的大型语言模型在药物探索中的规划
通过使用熵强化规划算法增强 Transformer 解码过程以在开发新药物和生成代码方面取得改进,该方法在多个属性上优于直接从 Transformer 中采样的现有算法。
- 在平均回报 MDPs 中实现可行的最小最优后悔
这篇论文介绍了一种具有最小最大后悔度的可行算法,该算法通过使用一种新颖的子程序,即 Projected Mitigated Extended Value Iteration(PMEVI),来高效地计算偏差受限最优策略。同时,该算法不需要先前 - OpenTensor:复现更快的矩阵乘法发现算法
OpenTensor 是 AlphaTensor 的复现,通过深度强化学习 (DRL) 发现了一种优于现有方法的矩阵乘法算法。
- 流式随机多臂赌博机中的记忆 - 遗憾权衡理解
在 $P$ 次流式模型中研究随机多臂赌博机问题,通过设计一种算法,给出了关于 $m,n$ 和 $P$ 的最优遗憾度量的完整刻画,同时提出了一个上界和下界,结果在 $n$ 和 $P$ 方面具有紧密性。
- 将差分隐私合成数据应用于关系数据库的适应性
本研究提出了一种首次相结合现有差分隐私机制生成综合性关系型数据库的算法,通过迭代优化各个合成表之间的关系,最小化其低阶边缘分布的近似误差,并保持参照完整性。最终,我们对该算法提供了差分隐私和理论效用保证。
- ICML平均奖励约束下有效的强化学习探索:通过后验抽样实现接近最优的遗憾
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
- Oracle 高效最大值集成强化学习
通过可伸缩方法进行策略改进的学习算法,仅使用成分策略而非其价值函数来与最优策略竞争,并展示其实验有效性和行为特性。
- 使用分支界限法对神经网络进行概率验证
用具有适当启发式条件的一组算法基于神经网络的输出分布来验证其概率,同时计算和迭代优化神经网络输出概率的下界和上界,并通过应用非概率性神经网络验证中的最先进的边界传播和分支约束技术,显著提高了解决时间。
- 通过多算法分析和用户友好可视化提升音乐流派分类
用五个不同独立的算法对用户上传的歌曲进行分析,通过有监督学习从事例中学习来识别歌曲的独特之处,特别考虑音乐的流派,最终用图形工具展示分析结果。
- 利用 UltraGist 压缩长篇背景
压缩长度上下文的新方法 UltraGist 通过压缩和学习算法的创新设计,提高了对长上下文的高质量压缩,实现了压缩的灵活性、精细化压缩、训练样本有效利用和动态上下文的高效压缩。
- 可证明高效的无限时间平均回报线性 MDP 的强化学习
设计了一个计算有效的算法,通过将平均奖励设定近似为折扣设定,并且在适当调整贴现因子时,通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
- 在具有潜变量的子人群中的因果效应识别
本文考虑了允许潜变量存在的 s-ID 问题的拓展,通过将经典的图形定义扩展为新的对应关系来应对潜变量在亚群中存在时引发的挑战,并提出了一种针对具有潜变量的 s-ID 问题的可靠算法。
- 多表示遗传编程:基于树状和线性表示的案例研究
本文提出了一种基于树形和线性表示的多表示遗传编程算法,通过跨表示交叉运算符,成功改善了仅使用树形或线性表示的遗传编程在符号回归和动态车间调度问题中的效果。