LExCI: 嵌入式系统的强化学习框架

Dec, 2023

LExCI: A Framework for Reinforcement Learning with Embedded Systems

Kevin Badalian, Lucas Koch, Tobias Brinkmann, Mario Picerno, Marius Wegener...

TL;DR在控制工程的背景下，人工智能的发展使得其应用于日常生活的许多领域。在强化学习中，RL（reinforcement learning）是一种特别有前景的方法，其核心思想是允许代理与环境自由交互以找到最佳策略。然而，传统的 RL 库很难与嵌入式硬件结合使用。本文介绍了一种名为 LExCI（Learning and Experiencing Cycle Interface）的框架，它弥合了这一差距，并为终端用户提供了一个在嵌入式系统上使用开源库 RLlib 训练代理的免费工具。通过两种最先进的 RL 算法和一种快速控制原型系统来证明其可操作性。

Abstract

Advances in artificial intelligence (AI) have led to its application in many areas of everyday life. In the context of control engineering, reinforcement learning (RL) represents a particularly promising approach

artificial intelligence reinforcement learning control engineering embedded systems rllib

发现论文，激发创造

基于强化学习的控制器从模型到硬件的迁移

将强化学习、迁移学习和 X-in-the-Loop 模拟相结合，提高 RL 代理的训练过程速度，为嵌入式系统控制函数开发提供解决方案。

Oct, 2023

实时策略游戏综合终身强化学习智能体系统设计

本文介绍了 L2RLCF 框架以及通过 Starcraft-2 小游戏实现不同组件的整合，从而实现连续学习的能力并进行全面客观的比较。

Dec, 2022

具有显式上下文表示的深度强化学习

该研究提出了一种离散环境中的 Iota 显式上下文表示 (IECR) 框架，通过提取上下文关键帧 (CKFs) 实现了从环境中学习，并使用新算法在五个离散环境中取得了显著优于现有算法的收敛效果。

Oct, 2023

Scilab-RL：用于高效强化学习和认知建模研究的软件框架

通过 Scilab-RL 软件框架，研究人员能够有效进行认知建模和强化学习方面的研究，特别注重基于目标的强化学习和实验可视化，最大限度地提高研究产出。

Jan, 2024

ReIL: 基于强化干预的模仿学习框架

本文提出了一种基于增强和干预的多任务学习框架 --ReIL，该框架旨在实现在无需过多监督和调整的情况下，在真实环境中训练代理。实验结果表明，相较于其他基于干预的方法，ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法，能够在稀疏监督信号的情况下快速学习并保持性能。

Mar, 2022

自信感感知的逆约束强化学习

逆向约束强化学习 (Inverse Constraint Reinforcement Learning, ICRL) 领域研究了从离线专家演示中估计约束的算法，并提供了一种基于置信水平对专家演示进行约束估计的方法，使用户可以选择满足期望置信水平的约束进行使用，同时允许用户了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。

Jun, 2024

RLLTE: 强化学习的长期演进项目

RLLTE 是一个长期演进、极其模块化和开源的强化学习（RL）研究和应用框架，它通过提供大量组件来加速算法开发和演化，并构建了一个完整且丰富的生态系统，包括模型训练、评估、部署、基准测试平台和大型语言模型（LLM）辅助驾驶器。RLLTE 有望为 RL 工程实践制定标准，并对产业和学术界产生高度刺激。

Sep, 2023

强化学习应用

本文介绍了强化学习的基础知识、成功应用案例、ICML 2019 研讨会等内容，重点讨论了其在推荐、机器人等应用领域中的应用。

Aug, 2019

L2Explorer: 一种终身强化学习评估环境

介绍了一种基于 Lifelong Learning Explorer（L2Explorer）框架的连续 RL 开发和评估方法，其提供了一种开放世界环境下的未来评估方法的框架，并严格评估终身学习方法。

Mar, 2022

RILe: 强化模仿学习

RILe 是一个学生 - 教师系统，通过根据学生的表现和与专家演示的一致性动态调整奖励函数，实现对不完美数据的鲁棒性，并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。

Jun, 2024