BriefGPT.xyz
Ask
alpha
关键词
feasible region
搜索结果 - 2
使用神经网络对受约束系统进行建模的两阶段训练方法
本文详细描述了一种简单、有效且无需惩罚参数的两阶段训练方法,用于模型约束系统。通过将约束优化问题重写为解决两个无约束子问题的两阶段,实现了找到可行神经网络参数和最优神经网络参数。实验证明,该方法可以产生满足约束的模型,并提升预测性能,确保关
→
PDF
4 months ago
ICLR
带有可行性引导扩散模型的安全离线强化学习
通过可行区域定义的安全约束,最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR(FeasIbility-guided Safe Offline RL)是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。
PDF
6 months ago
Prev
Next