神经网络在深度强化学习中的表现能力

ICMLOct, 2019

神经网络在深度强化学习中的表现能力

On the Expressivity of Neural Networks for Deep Reinforcement Learning

Kefan Dong, Yuping Luo, Tengyu Ma

TL;DR我们通过神经网络对策略，Q 函数和动态的表达能力，比较模型无关的强化学习与模型基于的方法。我们理论和实证地展示，即使对于一维连续状态空间，存在许多其最佳 Q 函数和策略比动态复杂得多的 MDP。我们假设许多现实世界中的 MDP 也具有类似的特点。基于这样的理论假设，我们使用简单的多步模型基于启发式策略改善算法（BOOTS）将较弱的 Q 函数引导为更强的策略，并将此应用于 MuJoCo 基准测试任务，结果表明 BOOTS 能够显著提高模型基于或模型无关的策略优化算法的性能。

Abstract

We compare the model-free reinforcement learning with the model-based approaches through the lens of the expressive power of neural networks for policies, $Q$-functions, and dynamics. We show, theoretically and e

reinforcement learning neural networks model-based planning mdps boots

发现论文，激发创造

利用本体感知数据提升具有不确定性的空间探索机器人的地形分类

在空间探索中，地形分类是一项重要任务，其中无法预测的环境难以仅依靠外部感知传感器（如视觉）进行观测。通过引入神经网络分类器，可以实现高性能，但由于缺乏透明性，这使得它们在任务规划中做出重要决策时不可靠。本文提出了一种带有不确定性量化的神经网络地形分类方法。我们通过在时间序列可用体系结构中使用只有本体感知数据作为输入的蒙特卡洛 Dropout、DropConnect 和 Flipout，使神经网络得以提高。我们使用超带状贝叶斯优化进行高效的超参数优化，以找到值得信赖的地形分类的最佳模型。

Jul, 2024

关于联邦学习中 LLM 微调的客户端偏好

利用人类反馈进行强化学习（RLHF）通过使用偏好数据集微调预训练的大型语言模型（LLM），使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题，我们提出了一个可行的框架，其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器，我们可以进一步增强生成人类优选补全的 LLM。同时，我们提出了一种新颖的算法 FedBiscuit，通过基于他们的偏好将客户组织成平衡和不相交的簇，从而训练多个选择器。与 FedBis 相比，FedBiscuit 在模拟人类对成对补全的偏好上表现出优越性能。我们在联邦人类偏好数据集上进行了广泛的实验，这是第一个解决客户之间的异构数据划分问题的基准，结果表明 FedBiscuit 优于 FedBis，甚至超过传统的集中式训练。

Jul, 2024

ShiftAddAug: 用混合计算对无乘法小型神经网络进行增强

ShiftAddAug 使用昂贵的乘法增强了高效但较弱的无乘法操作符，通过将 ShiftAdd 小型神经网络用作大型乘法模型的子模型进行训练，并鼓励它获得额外的监督，以解决混合操作符之间的权重差异问题。此外，采用新的权重共享方法和新的两阶段神经架构搜索方法，获得更好的增强效果以用于更小但更强大的无乘法小型神经网络。在图像分类和语义分割实验中，验证了 ShiftAddAug 的优越性，持续提供显著的改进。特别是在 CIFAR100 上，相较于直接训练的对照组，其精度提高了 4.95%，甚至超过了乘法神经网络的性能。

Jul, 2024

无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

Jul, 2024

示例中的价值惩罚辅助控制用于无奖励或演示的学习

通过添加计划的辅助控制和辅助任务的示例，本研究在基于示例的控制任务中显著提高了探索能力，并解决了价值估计超出理论限制的问题，从而大大提高了学习效率。

Jul, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

利用蛋白质语言模型进行序列设计的强化学习

蛋白质序列设计对于药物研发中的蛋白质工程问题至关重要，本研究提出使用蛋白质语言模型作为奖励函数来生成新的序列，利用强化学习和最优化方法进行体系建模，实验证明强化学习在生物序列设计方面具有很大潜力。

Jul, 2024

通过鲁棒性和关键性，结合人工智能控制系统和人类决策支持

AI 控制系统和对抗性解释在增强学习中具有广泛的应用，可用于智能决策工具和训练框架，增强决策和解释的能力，并提供强大的防御能力。

Jul, 2024

通过渐进式知识蒸馏推进压缩视频动作识别

通过压缩视频动作识别，利用压缩视频中的不同模态（运动矢量、残差和帧内数据）对视频样本进行分类，本研究提出了逐步知识蒸馏（PKD）和加权推理与缩放集成（WISE）两种策略，通过知识传递和模态间的层级收敛关系，提高内部分类器（IC）的准确性，并在实验中证明了它们对 UCF-101 和 HMDB-51 数据集准确率的改善。

Jul, 2024

基于强化学习的自主机器人导航研究

基于强化学习的自主导航方法，采用深度 Q 网络（DQN）和近端策略优化（PPO）模型，通过机器人与环境的连续交互和实时反馈奖励信号，对路径规划和决策过程进行优化，提高机器人在未知环境中的导航能力和自适应性。

Jul, 2024