用于稳定强化学习的固定时间差分方法

AAAISep, 2019

用于稳定强化学习的固定时间差分方法

Fixed-Horizon Temporal Difference Methods for Stable Reinforcement Learning

Kristopher De Asis, Alan Chan, Silviu Pitis, Richard S. Sutton, Daniel Graves

TL;DR本文提出了一种解决强化学习中含有稳定性问题的新型算法 —— 固定时间段时序差分算法，该算法通过对当前概率及其后 $h$ 步概率分别采用 $TD$ 算法进行预测，具有一定的优势。

Abstract

We explore fixed-horizon temporal difference (TD) methods, reinforcement learning algorithms for a new kind of value function that predicts the sum of rewards over a $\textit{fixed}$ number of future time steps.

fixed-horizon temporal difference methods reinforcement learning value function stability

发现论文，激发创造

关于联邦学习中 LLM 微调的客户端偏好

利用人类反馈进行强化学习（RLHF）通过使用偏好数据集微调预训练的大型语言模型（LLM），使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题，我们提出了一个可行的框架，其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器，我们可以进一步增强生成人类优选补全的 LLM。同时，我们提出了一种新颖的算法 FedBiscuit，通过基于他们的偏好将客户组织成平衡和不相交的簇，从而训练多个选择器。与 FedBis 相比，FedBiscuit 在模拟人类对成对补全的偏好上表现出优越性能。我们在联邦人类偏好数据集上进行了广泛的实验，这是第一个解决客户之间的异构数据划分问题的基准，结果表明 FedBiscuit 优于 FedBis，甚至超过传统的集中式训练。

Jul, 2024

无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

Jul, 2024

示例中的价值惩罚辅助控制用于无奖励或演示的学习

通过添加计划的辅助控制和辅助任务的示例，本研究在基于示例的控制任务中显著提高了探索能力，并解决了价值估计超出理论限制的问题，从而大大提高了学习效率。

Jul, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

利用蛋白质语言模型进行序列设计的强化学习

蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要，本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列，利用强化学习和最优化方法进行体系建模，实验证明强化学习在生物序列设计方面具有很大潜力。

Jul, 2024

通过鲁棒性和关键性，结合人工智能控制系统和人类决策支持

AI 控制系统和对抗性解释在增强学习中具有广泛的应用，可用于智能决策工具和训练框架，增强决策和解释的能力，并提供强大的防御能力。

Jul, 2024

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024

面向策略学习的文本感知扩散

使用文本条件的扩散模型进行密集的无示范奖励信号计算，以从自然语言中学习零样本目标实现和持续运动行为的策略学习，并在机器人操纵任务中竞争性表现。

Jul, 2024

PWM：大型世界模型的策略学习

通过使用大规模多任务环境模型进行策略学习，我们引入了一种名为 Policy learning with large World Models (PWM) 的新型基于模型的强化学习算法，对具有多种实现方式的多任务进行连续控制策略的学习。

Jul, 2024

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024