基于知识的不确定性顺序决策制定

MMMay, 2019

基于知识的不确定性顺序决策制定

Knowledge-Based Sequential Decision-Making Under Uncertainty

Daoming Lyu

TL;DR本文提出一种将 DRL 算法与符号计划相结合的新算法，引入声明性知识来提高其数据效率和可解释性，并通过公开基准的实验分析验证了其子任务的可解释性，结果表明我们的方法在数据效率方面优于现有的最先进方法。

Abstract

deep reinforcement learning (DRL) algorithms have achieved great success on sequential decision-making problems, yet is criticized for the lack of data-efficiency and →

deep reinforcement learning data-efficiency explainability subtasks symbolic planning

发现论文，激发创造

我们提出的有效策略 LANE 通过语义嵌入、零样本提示的用户多偏好提取、语义对齐以及基于思维链提示的可解释推荐生成等关键组件，将语言模型与推荐系统整合，实现了低成本、高可解释性的推荐逻辑。实验证明我们的方法不仅能确保推荐性能，而且能提供易于理解和合理的推荐逻辑。

Jul, 2024

基于原型的联合嵌入方法提升 Softmax 分类器的可解释性

我们提出了一种基于原型的方法来改善 softmax 分类器的可解释性，通过对原型进行随机采样生成可理解的预测置信度，并展示了对于分布外数据的潜在检测能力。通过修改模型架构和训练，使用与训练数据集中任意一组类别示例的相似性进行预测，我们获得了对贡献于预测的典型示例进行采样的能力，从而为模型的决策提供基于实例的解释。此外，通过学习模型潜在空间中图像之间的相对距离，我们获得了一种比 softmax 置信度更能检测分布外数据的不确定性度量。

Jul, 2024

基于安全驱动的深度强化学习框架的协作机器人：一种 Sim2Real 方法

提出了一种新方法，将安全约束整合到深度强化学习（DRL）的机器人模拟训练中，并通过将安全要求的特定部分直接整合到机器人的学习算法中来评估这些安全约束的有效性。通过测试 DRL 模型在包括具有和没有障碍物规避的抓取任务等各种场景下的效率来验证这一方法，并使用基于仿真的测试来评估 DRL 模型对潜在危险和合规性的响应。该研究验证了这种方法显著提高了机器人系统的安全性能，且该 DRL 模型能够在维持操作效率的同时预测和减轻危险。采用带有安全传感器的协作机械臂测试平台进行验证，并使用平均安全违规次数、障碍物规避次数和成功抓取次数等指标来评估其性能，结果显示该方法在仿真场景中的平均成功率提高了 16.5%，在无安全违规的测试平台上提高了 2.5%。

Jul, 2024

强化学习中的归一化与有效学习率

在深度强化学习和持续学习文献中，标准化层近年来得到了重新关注，几篇论文强调了其改善损失函数曲面条件和对抗高估偏差等多种好处；然而，标准化带来了一个微妙但重要的副作用：网络参数范数增长与有效学习率衰减之间的等价性，这在持续学习环境中变得有问题，因为有效学习率可能相对于学习问题的时间尺度过快地衰减至接近零。我们提出了一种称为 Normalize-and-Project（NaP）的简单重新参数化方法，将标准化层的插入与权重投影相结合，确保有效学习率在训练过程中保持恒定；该技术不仅是深度强化学习中更好地理解学习率调度的强大分析工具，还是在合成可塑性损失基准测试以及 Arcade Learning Environment 的单任务和顺序变体中提高非稳态稳健性的手段。我们还证明了我们的方法可以轻松应用于热门架构，如 ResNets 和 transformers，同时在常见的稳态基准测试中恢复并在某些情况下甚至稍微改善基础模型的性能。

Jul, 2024

基于近端策略优化的深度强化学习在奶牛养殖中的电池管理方法

通过最大化利用可再生能源并应用深度强化学习算法（DRL）的近端政策优化（PPO）方法，研究提高电力效率、减少环境影响，从而提高奶牛养殖中的能源管理和可持续性。实证结果表明，相较于 Q 学习算法，PPO 方法可以减少 1.62% 的电力从电网进口，显著提高了奶牛养殖中的能源效率和可持续性。

Jul, 2024

EXCGEC：一个基于修改的能解释中文语法错误的基准

该研究介绍了 EXplainable GEC（可解释的语法错误纠正）任务，重点关注纠正和解释任务的整体作用。为了推动该任务的发展，提出了一个针对中文的 EXGEC 基准，包括 8,216 个增强解释样本和混合编辑方式解释的设计。通过使用多个后解释和前解释的 LLMs 系列，在多个设置中对其进行了基准测试。通过进行人工评估实验证明了无约束文本解释的自动度量与人工一致性。所有代码和数据将在审核后发布。

Jul, 2024

让混合 A * 路径规划器遵守交通规则：基于深度强化学习的规划框架

利用深度强化学习（DRL）和混合 A * 路径规划方法，在自动驾驶系统中实现高级决策与低级轨迹规划，并通过真实系统验证其可行性。

Jul, 2024

大规模多地形深度强化学习中的超约束机动演化形态

通过深度强化学习和进化形态学，本研究探索了一种新型的过约束机器的设计与学习，旨在开发具有卓越能量效率的现代机器人四肢设计。研究结果显示，相较于平面四肢，在不同地形上，包括地板、斜坡和楼梯，过约束四肢的运动更加高效，至少可节省 22% 的机械能量，在平地上的平均速度是平面四肢的 20% 更快。

Jul, 2024

深度强化学习对恶劣车库场景生成的研究

自主车辆需要行驶超过 110 亿英里以确保其安全性。因此，在进行真实世界测试之前进行模拟测试的重要性是不言而喻的。近年来，以 Carla 和 CarSim 为代表的自主驾驶三维模拟器的发布，标志着自主驾驶模拟测试环境从简单的 2D 俯视图过渡到复杂的三维模型。本论文提出了一个基于深度强化学习的自动生成程序的框架，该框架可以生成不同的二维地面脚本代码，用于构建三维模型文件和地图模型文件。生成的三维地面场景在 Carla 模拟器中显示，实验者可以使用该场景进行导航算法模拟测试。

Jul, 2024

加权缺失线性判别分析：用于具有缺失数据的可解释分类方法

提出了一种新颖的方法 WLDA，用于在缺失数据下进行线性判别分析，通过权重矩阵对缺失值进行惩罚，在医学、金融等高风险领域中能比传统方法更好地解释和分类数据。

Jun, 2024