adaptive policy | BriefGPT - AI 论文速递

关键词adaptive policy

搜索结果 - 10

教授机器人行走的同时也教给它们交易 —— 使用知情数据和 LLMs 进行制度自适应执行
通过强化学习算法从市场反馈中动态适应迁移和协方差偏移，从而提高金融市场预测精确性，并且在现有基准任务和最近提出的任务中表现优于其他模型。
PDF12 days ago
EMNLP自适应等待 -$k$ 模型的同时翻译策略
同时机器翻译中，我们提出一种通过将自适应策略模型与翻译模型分离的灵活方法，引入了基于潜在的翻译分布差异的 DaP（基于分歧的自适应策略），以在翻译准确性和延迟之间提供更好的平衡，表现优于现有方法。
PDF8 months ago
ICLR利用锐度敏感的最小化策略
本文提出了一种自适应策略 AE-SAM 和 AE-LookSAM 来精准控制模型使用 sharpness-aware minimization（SAM）。经实验证明该方案具有较高效率和效果。
PDFa year ago
EMNLP将固定转为自适应：将后评估集成到同时机器翻译中
本文提出了一种将后评估集成到固定策略中的方法，通过测量源内容的变化来评估下一个操作的合理性，并根据评估结果采取不同的操作，这种自适应策略在三项翻译任务中均优于强基准线。
PDF2 years ago
ICML离线强化学习策略应该被训练成具有自适应性
该研究提出离线 RL 方法应该适应不确定性，提出了一种基于贝叶斯优化的自适应算法用于近似离线 RL 的最优自适应策略，并且在离线 RL 基准测试中展示了其有效性。
PDF2 years ago
ACL利用长度感知框架降低同时机器翻译中的位置偏见
本研究分析了 SiMT 中的位置偏差现象，提出了一个基于长度感知的框架，通过将流输入变成伪满句来消除位置偏差，并成功应用于两个代表性的 SiMT 方法中以提高性能。
PDF2 years ago
利用深度强化学习的高能效停车分析系统
本文提出了一种基于深度强化学习技术的 RL-CamSleep 方法，以激活相机并降低能耗，同时保持系统的实用性，从而为停车场视频分析平台提供足够的能量和准确度，并在城市范围内的 76 条街道数据集上进行了评估和分析，结果显示该方法能够使平均
PDF2 years ago
基于模型的对手建模
本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。
PDF3 years ago
公平动态配给
本研究旨在探讨政府和非营利组织在任务为需要实现顺序并且可能相关的代理人之间公平高效地分配社会福利时所面临的分配难题，特别是在 COVID-19 流行病期间的类似情况下发现最小填充率上限和最小预期填充率的方法是什么，我们提出了一个简单的自适应
PDF3 years ago
随机多臂赌博问题的遗憾下界和拓展上置信界策略
通过对经典多臂赌博机（Stochastic Multi-Armed Bandit）的研究，探讨了两种不同的准则下存在的遗憾下界。同时，研究了 UCB 等算法的变体，证明了这种情况下不可能设计一种自适应的策略来选择最优算法。
PDF13 years ago