分布式深度 Q-Learning

MMAug, 2015

Distributed Deep Q-Learning

Hao Yi Ong, Kevin Chavez, Augustus Hong

TL;DR我们提出了一种分布式深度学习模型来直接从高维感知输入中学习控制策略，使用强化学习来评估未来奖励，并通过对 DistBelief 软件框架的适应来分布式地训练，实现了异步和扩展性。

Abstract

We propose a distributed deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is based on the deep Q-network, a convolutional neural network trained with a variant of Q-learning. Its input is raw

distributed deep learning reinforcement learning convolutional neural network asynchronous training

发现论文，激发创造

关于联邦学习中 LLM 微调的客户端偏好

利用人类反馈进行强化学习（RLHF）通过使用偏好数据集微调预训练的大型语言模型（LLM），使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题，我们提出了一个可行的框架，其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器，我们可以进一步增强生成人类优选补全的 LLM。同时，我们提出了一种新颖的算法 FedBiscuit，通过基于他们的偏好将客户组织成平衡和不相交的簇，从而训练多个选择器。与 FedBis 相比，FedBiscuit 在模拟人类对成对补全的偏好上表现出优越性能。我们在联邦人类偏好数据集上进行了广泛的实验，这是第一个解决客户之间的异构数据划分问题的基准，结果表明 FedBiscuit 优于 FedBis，甚至超过传统的集中式训练。

Jul, 2024

无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

Jul, 2024

示例中的价值惩罚辅助控制用于无奖励或演示的学习

通过添加计划的辅助控制和辅助任务的示例，本研究在基于示例的控制任务中显著提高了探索能力，并解决了价值估计超出理论限制的问题，从而大大提高了学习效率。

Jul, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

利用蛋白质语言模型进行序列设计的强化学习

蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要，本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列，利用强化学习和最优化方法进行体系建模，实验证明强化学习在生物序列设计方面具有很大潜力。

Jul, 2024

通过鲁棒性和关键性，结合人工智能控制系统和人类决策支持

AI 控制系统和对抗性解释在增强学习中具有广泛的应用，可用于智能决策工具和训练框架，增强决策和解释的能力，并提供强大的防御能力。

Jul, 2024

LMBF-Net: 一种用于多特征分割的轻量级多路径双向焦点注意力网络

本研究提出了一种用于多特征分割的多路径卷积神经网络，该网络轻量且对信息敏感。通过基于图像块的实现提取局部图像特征，并在编码器和解码器之间引入焦点调制注意力块以改善分割效果。使用滤波器优化来防止滤波器重叠并加速模型收敛。通过卷积操作和组卷积操作的组合来降低计算成本。此网络能够对多个特征的眼底图像进行分割，并在多个公开数据集上的实验评估中表现出色，尽管其可学习参数较少。

Jul, 2024

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024

面向策略学习的文本感知扩散

使用文本条件的扩散模型进行密集的无示范奖励信号计算，以从自然语言中学习零样本目标实现和持续运动行为的策略学习，并在机器人操纵任务中竞争性表现。

Jul, 2024

PWM：大型世界模型的策略学习

通过使用大规模多任务环境模型进行策略学习，我们引入了一种名为 Policy learning with large World Models (PWM) 的新型基于模型的强化学习算法，对具有多种实现方式的多任务进行连续控制策略的学习。

Jul, 2024