分布式深度 Q-Learning
利用人类反馈进行强化学习(RLHF)通过使用偏好数据集微调预训练的大型语言模型(LLM),使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题,我们提出了一个可行的框架,其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器,我们可以进一步增强生成人类优选补全的 LLM。同时,我们提出了一种新颖的算法 FedBiscuit,通过基于他们的偏好将客户组织成平衡和不相交的簇,从而训练多个选择器。与 FedBis 相比,FedBiscuit 在模拟人类对成对补全的偏好上表现出优越性能。我们在联邦人类偏好数据集上进行了广泛的实验,这是第一个解决客户之间的异构数据划分问题的基准,结果表明 FedBiscuit 优于 FedBis,甚至超过传统的集中式训练。
Jul, 2024
本文提出一种基于策略优化的算法,通过简单高效的收缩机制替代了昂贵的探索预热阶段,实现了在两种基本设置下的最优遗憾保证,即全信息反馈的对抗性损失和赌博反馈的随机损失。
Jul, 2024
通过添加计划的辅助控制和辅助任务的示例,本研究在基于示例的控制任务中显著提高了探索能力,并解决了价值估计超出理论限制的问题,从而大大提高了学习效率。
Jul, 2024
大型语言模型(LLMs)的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人,通过高级技术如调整指令和通过人类反馈进行强化学习(RLHF)紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法,即量化感知的直接偏好优化(QDPO),通过将量化的 LLMs 与其完整精度的对应物对齐,从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时,QDPO 在提高对话能力方面表现出优越性,相比已确立的后训练量化(PTQ)和知识蒸馏微调技术,标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。
Jul, 2024
蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要,本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列,利用强化学习和最优化方法进行体系建模,实验证明强化学习在生物序列设计方面具有很大潜力。
Jul, 2024
AI 控制系统和对抗性解释在增强学习中具有广泛的应用,可用于智能决策工具和训练框架,增强决策和解释的能力,并提供强大的防御能力。
Jul, 2024
本研究提出了一种用于多特征分割的多路径卷积神经网络,该网络轻量且对信息敏感。通过基于图像块的实现提取局部图像特征,并在编码器和解码器之间引入焦点调制注意力块以改善分割效果。使用滤波器优化来防止滤波器重叠并加速模型收敛。通过卷积操作和组卷积操作的组合来降低计算成本。此网络能够对多个特征的眼底图像进行分割,并在多个公开数据集上的实验评估中表现出色,尽管其可学习参数较少。
Jul, 2024
基于强化学习的自主导航方法,采用深度 Q 网络(DQN)和近端策略优化(PPO)模型,通过机器人与环境的连续交互和实时反馈奖励信号,对路径规划和决策过程进行优化,提高机器人在未知环境中的导航能力和自适应性。
Jul, 2024
通过使用大规模多任务环境模型进行策略学习,我们引入了一种名为 Policy learning with large World Models (PWM) 的新型基于模型的强化学习算法,对具有多种实现方式的多任务进行连续控制策略的学习。
Jul, 2024