- 面向任务优先的策略组合
该论文提出了一种新的、基于任务优先级的深度强化学习组合框架,利用游走空间的概念来实现优先化组合,旨在促进知识转移、模块化设计,提高数据效率和数据重用性,并确保在机器人等安全关键领域的高优先级约束满足。
- IJCAI带惩罚项的近端优化安全强化学习
本论文提出惩罚近端策略优化 (P3O) 算法,通过一个等效的无约束问题的单次极小化来解决繁琐的受约束策略迭代,同时可以扩展至多约束和多智能体场景,实验表明该算法在一组有约束的机车任务上具有先进性能。
- AAAI通过约束松弛找到反事实解释
该研究提出了一种基于冲突检测和最大松弛的迭代方法,用于在交互式约束系统中计算对立解释,从而帮助用户理解可以应用于其现有约束的更改以使其满足约束条件。
- 无需一对一约束松弛的约束聚类和多核学习
本文提出了一种新的受限聚类算法,该算法可以在考虑已有对比信息的情况下最大程度地满足约束条件,而不会将已知的链接信息转化为距离信息,以此来高效地学习核与度量,并在各种公共数据集上的表现明显优于现有方法。同时,本文还探讨了该方法如何应用于大数据 - 具有有限域约束增强的电子表格计算
本文介绍了如何通过将有限约束求解器与电子表格计算范例结合来扩展电子表格计算范例应用,介绍了一个框架,将电子表格中的每个单元格与有限域或约束关系相连。同时提供了特定于电子表格的约束,以帮助控制大型电子表格应用程序实现的可扩展性,并通过示例演示 - 计划中基于文本的动作模型获取
本论文提出了一种利用自然语言处理和约束满足技术从文本描述中学习行动模型的方法,通过构建一种新型语言模型提取计划轨迹并建立一组约束条件来生成行动模型。实验结果表明这种方法是有效而高效的。
- ICML安全强化学习的约束变分策略优化
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
- AAAIMultiplexNet: 神经网络中完全满足逻辑约束的探索
我们提出了一种新颖的方法,将专家知识纳入深度神经网络的训练中,并将领域知识表示为易于编码和从人类专家那里引出的析取范式逻辑公式。该方法引入了一个分类潜变量来学习选择哪个约束项最优化网络的误差函数,并将约束条件直接编译到现有学习算法的输出中。 - 学习恢复区的安全强化学习(Recovery RL)
本文提出了一种名为 Recovery RL 的算法,它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性,并在六个仿真领域和一个物理机器人上进行了试验,证明 Recovery RL 在这些领 - MMMLIC: 一种基于 MaxSAT 的学习可解释分类规则的框架
该论文介绍了一个名为 MLIC 的 MaxSAT 框架,用于搜索适用于命题逻辑的可解释分类规则,并演示了它在解决包含数万个示例和数千个特征的大型分类问题方面的有效性和可调节的准确性与可解释性之间的平衡。
- IJCAI机器学习在组合问题建模中的应用
该研究论文研究了机器学习在组合优化中的应用,特别是在建模方面,提出了使用机器学习技术来提高建模的效率和精确度,包括单个约束、目标函数或整个模型的学习。
- ICLR奖励受限策略优化
提出了一种名为 “奖励约束策略优化(RCPO)” 的多时间尺度方法,该方法使用替代惩罚信号引导策略满足约束,并证明了该方法的收敛性和训练满足约束的策略的能力。
- 具有无限模板的 Datalog 和约束满足
该研究论文探讨了 Datalog,有限变量逻辑,存在性骰子游戏和有界高树双性的表达能力,在无限结构上的应用,研究了 omega-categorical 模板的约束满足问题。
- 硬优化问题的统计物理学
通过采用玻璃体系的空腔方法,我们在随机可满足性和随机图着色问题中,探讨困难问题的算法性质以及所谓的冻结变量的存在与问题的难度之间的关系,从而引入一个新的 “锁定” 约束满足问题的类别。
- 软约束的弧一致性
该论文介绍了一种在 soft constraint frameworks 中使用 non idempotent operators(如 +)的情况下扩展经典 arc consistency 的方法,称之为 soft arc consiste - 稳定模型与一种替代逻辑编程范式
通过稳定模型语义重新审视逻辑编程在约束满足问题中的角色定义,提出一种函数符号被消除的新型逻辑编程系统,基于约束来描述问题的解决方案。该方法具有良好的应用范围、有力的计算算法和新型编程方法。