BriefGPT.xyz
大模型
Ask
alpha
关键词
lagrangian duality
搜索结果 - 4
COPR: 通过最佳策略规范实现连续人类偏好学习
基于连续优化策略正则化(COPR)方法,该研究提出了一种从人类反馈进行强化学习的方法,用于改进大型语言模型与人类偏好的一致性,并通过使用抽样分布和正则化限制来克服连续学习中的挑战,防止历史偏好的灾难性遗忘,并在实验证明 COPR 在奖励评估
→
PDF
4 months ago
原始对偶连续学习:通过拉格朗日乘子实现稳定性和可塑性
持续学习是一种受限制的学习问题,该研究通过利用记忆方法、拉格朗日对偶性和次优性界限来直 接解决这个问题,并在不同的持续学习基准测试中实验证实了理论结果。
PDF
9 months ago
大规模最优功率流的高保真机器学习逼近
本文介绍了一种名为 OPF-DNN 的模型,它将深度神经网络和 Lagrangian 对偶相结合,以在满足物理和运行约束条件的同时确保发电机设定点的最小成本,从而在大型电力系统中提供高效准确的交流最优功率流(AC-OPF)近似解决方案。
PDF
4 years ago
三维 SLAM 中的 Lagrangian 对偶:验证技术和最优解决方案
本文提供了 Lagrangian duality 用于多智能体下载定位与地图制作中关于质量评价的解决方案。我们讨论了 SLAM 推理问题改良后的概率基础形式,推导了相应的拉格朗日对偶问题,并讨论了原始问题和对偶问题之间的关系。我们证明了可以
→
PDF
9 years ago
Prev
Next