- 粒子半隐式变分推断
该研究提出了一种名为粒子变分推理(PVI)的新方法,通过粒子近似欧氏 - 瓦塞尔斯坦梯度流,利用经验度量来近似描述最优混合分布,并直接优化证据下界(ELBO),无需对混合分布做参数化假设。实证结果表明,PVI 在各种任务中表现出色,并对相关 - 强化学习的广义控制论方法:理论与算法
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
- DeepStack: 深度堆叠视觉令牌在 LMMs 中的惊人简洁和高效
该研究提出一种新的架构 DeepStack 用于大型多模态模型(LMMs),通过将视觉令牌分组堆叠到与之对应的转换层以增强 LMMs 的建模能力,并在广泛的实证结果中验证了 DeepStack LMMs 的有效性。
- 基于顺序一般变分模式分解方法的时间序列预测组合模型
金融时间序列的准确预测对市场经济参与者和投资者至关重要。本文选择在线商店销售和澳大利亚啤酒销售作为非平稳、趋势和季节性金融时间序列的代表,并以非线性组合方式构建了一个新的 SGVMD-ARIMA 组合模型来预测金融时间序列。ARIMA 模型 - 权重复制与低秩适应:视觉 Transformer 的少样本蒸馏
利用少样本的知识蒸馏方法来提取大规模预训练模型的知识,通过复制视觉变换器的权重并采用改进的低秩适应方法,将知识传输到学生模型中,并通过实证实验验证方法的优越性。
- 深度线性无约束特征模型在深度学习中统一低维观测
现代深度神经网络在各种任务中取得了高性能,研究人员最近注意到这些网络的权重、Hessian 矩阵、梯度和特征向量中存在低维结构,这种低维结构在不同的数据集和架构上进行训练时都能观察到。在本文中,我们在理论上证明了这些观察结果的发生,并展示了 - ICLR合作多智能体强化学习的高效情节记忆利用
通过引入有效的情节记忆利用(EMU)来加速协同多智能体强化学习(MARL),为了减少学习时间并防止局部最优解,EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构,理论支持和实证结果表明 EMU 相比传统的情节控制 - 无源开放集域自适应的未知样本发现
Unknown Sample Discovery (USD) 是一种利用时间集成的教师模型进行已知 - 未知目标样本分离并通过协同训练和教师学生之间的时间一致性将学生模型适应于目标领域的 SF-OSDA 方法,着重推进 Jensen-Sha - 关于大型语言模型的讨论:代理方的对称与提示的相互作用
通过对大型语言模型的提示工程和多智能体讨论的综合推理两种方法进行讨论,本文从智能体的对称性角度理论上证明了多智能体讨论机制,从实证上揭示了提示工程的精心开发可以接近复杂多智能体机制的最新性能,并提出了一种基于征服和合并的可扩展讨论机制,提供 - 马尔可夫势博弈的独立自然策略梯度的可证明快速收敛
该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题,证明了在引入次优间隙的情况下,使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在 Ε-Nash 均衡中达到 Ο(1/Ε) 次迭代,这比之前的结果 - 强化学习中的延迟
研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。
- 全球级分层神经网络使用层级 Softmax
该论文提出了一个框架,在其中使用分层 softmax 来创建一个全局的分层分类器。该方法适用于任何具有类别的自然层次结构的分类任务。我们在四个文本分类数据集上展示了实证结果。在所有的数据集中,相比于在扁平分类器中使用的常规 softmax, - 语言模型仍缺乏测谎器:探究经验和概念障碍
我们考虑大型语言模型是否具有信念,以及如果它们确实具有信念,我们如何衡量它们。在评估两种现有方法失败后,我们认为即使 LLMs 具有信念,在概念上这些方法也不太可能成功。因此,还没有 LLMs 的测谎仪。我们总结了研究结果,并提出了一些未来 - 基于地标的目标识别规划再探讨:使用初始状态地标是否有意义?
本文研究基于规划地标的目标识别方法,经实验证明去除初始状态地标可以提高目标识别的性能和计算效率。
- 序贯决策的比例聚合偏好
研究公平的顺序决策问题,提出了三种有吸引力的选举规则,证明它们确实满足基于比例正当理由的公理,包括基于 α 和 β 的增强版本,同时展示了它们在合成数据和美国政治选举中的性能。
- ICML利用模型库中丰富的知识进行领域通用性的探索和利用
本文提出一种方法,利用编码表示中的多样性和相关性变化特征,结合不同预训练模型获得更好的极端样本识别性能。通过实验结果验证了该算法的有效性。
- 串行比较效率的理论分析
本研究对插值法的效率进行了理论分析,探讨了其在在线评估中的应用,发现当用户依赖于条目的相关性时,插值法的效率高于 A/B 测试,并通过实验结果验证了理论结果与实证结果的一致性。
- ACL在真实环境下评估 ASTE 模型:一个多领域多样化方面情感三元组抽取数据集
本文介绍了一个命名为 DMASTE 的数据集,该数据集被手动注释以更好地适应真实世界的情况,并包括比现有数据集更多的方面类型和领域。 我们对 DMASTE 进行了大量实验,结果表明 DMASTE 是一个更具挑战性的 ASTE 数据集。
- ICLR单正样本多标签学习中标签偏差的理解
该研究介绍了单正多标签学习中标签偏差的研究方法,并提供了新的经验证据,以便使用仅一个正标签的图像进行有效的多标签分类。
- 领域索引变分贝叶斯:可解释性领域索引用于领域自适应
本文提出了一种通过 Adversarial Variational Bayesian 方法从多域数据中推断域索引的框架,旨在提高域自适应性能并提供关于域之间关系的额外洞察力,实验结果表明该模型可以生成可解释的域指数,相比其他域自适应方法,在