- 在线强化学习中的规划的新视角
本文提出了一种新的基于模型的强化学习方法,使用背景规划来混合(近似)动态规划和无模型更新,以解决学习模型的不准确性和生成无效状态的问题,并通过约束背景规划到一组(抽象的)子目标和只学习局部的、以子目标为条件的模型来提高计算效率,自然地包含时 - 玻尔兹曼状态相关理性
通过在 Boltzmann 合理性模型中用状态函数 $\beta (s)$ 取代次优常量 $eta$,本研究通过测量结构性非理性在现有的人类行为学习模型中得到了扩展,从而以一种可计算的方式获得了自然的表达能力。
- 学得的正向算子的逆问题
通过两种不同范例,学习正演算子在逆问题中的重建方法:完全对正演算子不可知的范例通过投影正则化找到重建,而基于测量过程的简化模型则依赖于训练数据来学习模型修正。这两种方法都需要训练数据不仅仅是正演算子,也是其伴随算子。
- 任务和动作规划的政策导向的带反馈惰性搜索
提出了一种适用于任务运动规划(TAMP)问题的 PDDLStream 求解器 ——LAZY,将任务规划中连续动作的问题转化为一系列 PDDL 规划问题,并逐步增加几何信息以指导任务规划,同时将目标导向策略和当前的运动采样数据纳入模型,有效提 - 一项关于学习和改进无监督释义搜索目标的实证研究
本文研究无监督文本生成技术中的优化问题,提出利用学习模型平滑启发式搜索目标函数中的噪声以及与原始目标函数相结合来指导搜索,实验表明,这种方法可以略微提高搜索性能。
- AAAI元学习中多样性的影响
研究表明,任务分配在元学习者的表现中起着至关重要的作用。传统的智慧认为,任务多样性应该能够提高元学习的性能。然而,本文发现相反的证据。通过实验证据和理论证明,我们发现,将任务分配的多样性降低到一个子集水平,有时的效果甚至更好,并且将任务分配 - 我们准备好了吗?—— 学习基数估计
本研究旨在探讨学习模型在实际部署中替代基于传统方法的概数估计器的潜力。通过对四个实际数据集进行五种学习方法和八种传统方法的比较,结果显示学习模型更加准确但训练和推理成本较高。此外,我们探究了学习模型在动态环境下的表现和可能出现的问题,并提出 - RadixSpline:一种单遍学习索引
用一次数据扫描就可以构建、具有与现有最先进的索引模型相竞争的大小和查询性能的学习型索引 ——RadixSpline, 并通过 SOSD 基准评估展示了它的竞争力,尽管它只有两个参数。
- 一种正式的可解释性方法
本论文研究了解释生成函数和学习模型的中间表示之间的联系,发现如果一个给定层的激活与解释一致,则所有后续层也一致,并研究了交集和并集作为构建新解释的一种方法。
- AAAI通过识别重要特征并以正确分辨率了解学习模型
本文提出了一种模型无关的方式来测试特征组和交互作用,并使用假设检验来评估特征对模型损失的影响,并使用层次化方法控制假阳性错误率,并应用于两个生物医学应用中的随机森林和 LSTM 神经网络模型分析。
- ICLR逆向工程黑盒神经网络
研究表明,通过一系列查询可以暴露神经网络的架构、优化程序或训练数据等属性,因此黑匣子神经网络更容易受到各种攻击,但该技术也可以用于更好地保护个人隐私。
- NIPS分层知识库作为可解释的概率模型(扩展摘要)
本文倡议使用分层逻辑理论来表示概率模型,得出这种编码比现有框架如马尔科夫逻辑网络获得的编码更易于解释的结论。它允许使用领域专家通过直接修改逻辑公式来改善学习的模型。
- 基于模型的持续深度 Q 学习加速
本研究探讨了算法和表示方法,以降低针对连续控制任务的深度强化学习的样本复杂度,并提出了两种互补的技术来提高这种算法的效率,包括导出连续 Q 学习算法的归一化优势函数以及使用学习的模型来加速无模型强化学习,并在一组模拟机器人控制任务中表现出明