- 带有 Wasserstein 约束的强化学习
本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC,该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题,并且在 Cart-Pole - 随机线性赌器元学习
研究在随机线性赌博任务中的元学习过程,通过从任务分布中采样一类赌博任务来选择平均表现良好的学习算法,该文章考虑了实现 OFUL 算法的一类赌博算法,其中正则化是一个到偏置向量的平方欧几里得距离。我们首先研究了 OFUL 算法偏置的优点,并提 - 基于条件互信息的尖锐一般化界限及其在含噪迭代算法中的应用
研究使用超样本来计算条件互信息并提出新的紧密边界模型,应用于 Langevin 动力学算法以获得更紧密的假设测试边界。
- AAAI基于上下文多臂赌博机的时变用户兴趣个性化推荐
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置 - 随机最短路径的近最优遗憾边界
本文介绍了一种解决随机最短路径问题的算法,其中代理必须通过在有限次数的游戏中获得最佳策略,从而在最短期望代价下达到目标状态。通过探究悔恨最小化和最小瞬时代价的根号反比关系,本文提出了一种不依赖于最小代价的算法,并展示了任何学习算法在最坏情况 - 随机效用模型下的子集选择最佳项学习
我们提出了一种基于 PAC 学习的随机效用模型(RUM)的新学习算法,通过使用分层消除和基于两两相对比较的临界统计值进行训练,可以在 O (n/(c^2ε^2) log (k/δ)) 轮内识别出一个具有 ε 优异度的项,其中对于足够敏感于项 - 用属性规范语言学习可解释模型
本文主要介绍了一种用于从有限集的正面和负面例子中学习复杂系统可解释性描述的算法,通过在 IEEE 标准时间逻辑 PSL (Property Specification Language) 中学习公式来解决此问题,并比较了与现有 LTL 学习 - 制度转换赌徒
本文介绍了一种多臂赌博机问题,其中奖励表现出制度切换,提出了一种在线学习算法,并对算法进行了性能检验和分析。
- AAAI谁来担责?共同定量化学习算法与训练数据的贡献
本文提出了一个学习算法 $A$ 和数据集 $D$ 的联合信用分配问题以及解决该问题的 Extended Shapley 模型,并通过实验验证了其在解决机器学习责任方面的应用。
- ACL利用部分有序表示进行学习
这篇论文研究了使用丰富的表示模型定义语法的表征和学习。我们考虑到一些不常见的字符串模型,其中位置可以具有多个共享属性,并且提出了一种基于部分排序结构的学习算法,利用这种关系来有效地修剪假设空间,该算法找到最一般的文法覆盖数据。
- 从标签比例进行深度多类学习
该研究提出了一种学习算法,可以从标签比例中学习而不是直接数据标签,并比较了两种不同的可微损失函数来训练端到端的深度神经网络从图像所在的袋子中学习精确的图像分类器。
- 带有凸代价函数的结构化 MDP 学习:改进的库存管理遗憾界限
设计了一种学习算法来解决一个基本库存管理中未知需求分布的问题,使用基本库存策略的下限和凸性等属性来建立与随机凸臂优化的联系,极大地提高了此问题的已知后悔上限。
- 面向上下文的神经机器翻译学习
本文中,我们提出了一种新的学习算法,用于增进神经机器翻译模型对附加上下文的理解,通过使用多级成对排名损失函数,我们在基于 transformer 的大语境翻译系统中进行了评估,并通过与实际和随机语境下的性能对比表明,使用所提出的算法训练的模 - 基于动作评分的视频摘要
通过分析动作的性质和强度,该论文提出了一种自动算法来生成视频摘要,并使用动作性估计来调节训练模型以提高摘要的生成效果,与现有摘要方法相比有明显优势。
- 马尔可夫决策过程中的主动探索
本研究针对在 Markov 决策过程中的主动探索问题进行了研究,提出了一种新的学习算法,用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂,同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。
- ICLRCBOW 不是万能的:将 CBOW 与组合矩阵空间模型相结合
通过提出核心技术 —— 连续矩阵空间模型的学习算法 ——CMOW,结合 CBOW(连续词袋模型)和 CMOW 的优点,实现更好地标注文本信息,具有广泛的应用前景。
- 在马尔可夫决策过程中学习协作
针对一个由两个代理解决协作任务的两代理 MDP 框架,设计一种在线学习算法,使得当第二代理以未知的方式适应其策略时,第一代理能够轻松成功协作,保证了算法的收敛速度,并证明了这种方式的必要性和适用性。
- 基于一致稳定算法的泛化界限
提出了一种新的分析技术,证明了一些熟知算法具有更强的泛化保证,并改善了这个算法稳定性的相关细节。
- 神经架构搜索中的深度主动学习
本文研究了主动学习深度神经网络,并提出了一种新的主动策略,该策略能够在学习过程中搜索有效的架构,同时使用三种已知的查询技术(softmax response,MC-dropout 和 coresets)进行应用,结果表明该方法在固定架构的主 - 行人密集环境下的模仿导航
本文提出了一种新的在步行丰富的环境下进行自主导航的算法,该算法使用基于展示和指导的行为学习,结合深度卷积神经网络和分层嵌套策略选择机制,能够有效地学习专家干预并成功地在实际世界中进行自主导航。