- Locate&Edit: 基于能量的文本编辑技术用于高效、灵活和真实的可控文本生成
通过利用黑盒语言模型的文本输出,以生成的文本中最相关的部分为约束进行编辑,Locate&Edit (L&E) 提出了一种有效而灵活的能量模型方法,既能保留基本语言模型的原始生成结果,又能满足相关的约束条件。
- TRIP-PAL:结合大型语言模型和自动规划器的具保障旅行规划
TRIP-PAL 是一种结合 LLM 和自动规划器的混合方法,通过将旅行信息和用户信息转化为规划器可处理的数据结构,生成旅行计划以保证各种约束条件满足和用户效用优化,在生成旅行计划方面的性能优于 LLM。
- 通过质量多样性数据合成和语言模型的生成设计
通过将优化、约束满足和语言模型结合起来,我们提出了一种新颖的方法来解决工程应用中生成模型面临的两个基本挑战:获取高性能多样的数据集和生成符合精确约束的设计。我们的方法使用品质多样性 (Quality-Diversity, QD) 生成多样化 - 面向可解释的强化学习与约束归一化流策略
通过限制性归一化流策略模型作为可解释且安全的构建方式,我们实现了一种安全的强化学习方法,该方法可以满足即时安全限制,并且在整个学习过程中保持约束满足,同时提供领域知识,以提高解释性、安全性和奖励工程的效果。
- 高效且保证安全的非凸轨迹优化与约束扩散模型
本文提出了一个结合扩散模型和数值求解器的通用且可完全并行化的框架,用于非凸轨迹优化,以确保计算效率和约束满足性。通过引入一种新的受约束扩散模型,并在训练过程中引入附加的约束违反损失来近似局部最优解的分布并减小约束违反情况,得到的样本用作数值 - 超越 LLMs:复杂推理领域的发展
通过神经符号化的方法,本研究使用大型语言模型进行知识获取和用户交互,搭建了 Elemental Cognition 人工智能平台,该平台在处理约束满足和优化问题方面优于传统的大型语言模型,拥有更高的有效性和性能。
- 集成卫星地面网络的动态路由:一种受限多智能体强化学习方法
通过提出一种名为 CMADR 的新型约束多智能体强化学习动态路由算法,以高效地平衡目标改进与约束满足,该算法能有效减少数据包延迟最少 21% 和 15%,并满足严格的能量消耗和丢包率要求,优于多个基准算法。
- 风险感知的神经上下文点臂连续控制
我们提出了一个风险感知的决策框架,用于处理上下文褒贬问题,并满足实际环境中的约束条件,通过采用一个多批评者的角色体系来平衡约束满足度和性能。
- 利用拉格朗日对偶框架近似求解背包问题
利用拉格朗日对偶框架改进约束满足度的神经网络模型来近似解决背包问题,实验结果表明在强约束满足度下减少了最优解性能的一些损失。
- 具有全局收敛保证的内点约束强化学习
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度 O (ε^(-6))
- 代码模型是零 - shot 预处理推理器
通过使用代码表示,从示范轨迹中零样本提取行动前提条件,从而提出了一种基于前提条件的行动采样策略,以确保策略预测的行动与前提条件一致,继而提升少样本策略学习方法在任务导向的对话和具体化文本世界基准测试中的性能。
- KITAB: 对于信息检索的约束满足性评估 LLMs
我们研究了目前最先进的模型在回答信息检索的约束满足查询(例如 “圣地亚哥的冰淇淋店列表”)方面的能力。我们介绍了 KITAB 数据集,它包括与 600 多位作者和 13000 多个查询相关的图书相关数据,并提供了相关的动态数据收集和约束验证 - 带时间窗的概率时空约束下的强化学习
我们提出了一种基于自动机理论的强化学习方法,用于复杂时空约束下的限时学习。该方法通过将有界时态逻辑约束转化为总自动机,并基于已知的转移概率上下界避免 “不安全” 动作,从而在学习过程中强制满足约束条件的概率达到预期值。
- 学习选择 SAT 编码用于伪布尔和线性整数约束
通过使用监督式机器学习方法,探讨选择伪布尔约束和线性约束的编码问题,我们展示了使用标准特征集和专门设计的特征集可以有效地选择编码,甚至对于未见过的问题类别也能取得良好的结果,相比使用相同特征集的 AutoFolio 结果有优势。我们讨论了实 - 学习无效数据:生成模型中的约束满足问题
通过提出一种新的训练机制来提高生成模型的精度,该机制利用了约束违规的数据扩展了标准模型的数据集,我们的方法使生成分布与有效先验之间的差异最小化,同时最大化与无效分布之间的差异。
- 增强安全的近似非线性模型预测控制与神经网络
本论文通过神经网络(NN)的逼近研究模型预测控制(MPC)控制器,以实现快速在线计算,并通过安全增强提高收敛和实现约束满足的确定性保证。其控制框架在三个具有不同复杂度的非线性 MPC 基准测试中得到阐述,并证明了与在线优化相比的数量级的计算 - 具有时间平均约束的控制系统在线优化的原始 - 对偶背景贝叶斯优化
本研究针对约束闭环控制系统的在线性能优化问题,提出了一种基于贝叶斯优化算法的原始对偶上下文优化算法,该算法能够在一定条件下实现与动态最优解的次线性累积遗憾,同时保持无时间平均约束违规,为管道参数调谐问题提供了高效的解决方法
- 基于图遗传算法的自动化拼图验证以实现更快的游戏设计
本文介绍了一种带有专家知识启发式的进化算法,以更高效地解决逻辑谜题,在游戏设计中可以应用于自动验证和个性化谜题设计。
- 基于状态的安全强化学习:一项调查
本文综述了在强化学习中解决状态限制问题的现存方法并比较了它们在安全性、可伸缩性、奖励表现等方面的差异和权衡,同时总结了当前方法的局限性并探讨了未来的研究方向。
- 受限动态移动原理在运动技能安全学习中的应用
本文提出了一种基于动态动作原理的运动控制方法 CDMP,通过非线性优化来实现约束条件(如障碍物避让、工作空间限制)的满足,并在不同机器人以及环境下验证了该方法的有效性。