上下文信息导向采样

ICMLMay, 2022

Contextual Information-Directed Sampling

Botao Hao, Tor Lattimore, Chao Qin

TL;DR探讨了在具有上下文信息的情况下，信息导向采样 (IDS) 设计的优化方式，并通过上下文赌博问题的两个案例证明了上下文 IDS 的优势，特别强调了考虑上下文分布的重要性。进一步提出了基于演员 - 评论家算法的计算有效版本的上下文 IDS，并在神经网络上下文赌博中进行了实证评估。

Abstract

information-directed sampling (IDS) has recently demonstrated its potential as a data-efficient reinforcement learning algorithm. However, it is still unclear what is the right form of information ratio to optimi

information-directed sampling reinforcement learning contextual bandits graph feedback actor-critic

发现论文，激发创造

陌生人危险！基于 RL 的社交机器人导航中的识别与避让不可预测行人

通过改进学习流程，我们提出了一种社交注意力强化学习（SARL）策略，该策略在不熟悉情况下能够保持足够的谨慎，并通过修改训练过程、更新价值网络和实现奖励函数等方式，有效减少碰撞和减少人行道上个体空间的占用时间。

Jul, 2024

基于消息传递神经网络和强化学习的自主网络安全事件响应中的结构泛化

基于机器学习的自动化事件响应代理需要处理网络结构的变化，通过使用关系代理学习方法，将计算机网络的状态表示为关系图，并使用信息传递神经网络对其进行编码，从而解决了在网络变化时重新训练代理的问题。

Jul, 2024

iLLM-TSC：基于集成强化学习和大型语言模型的交通信号控制策略优化

通过将大型语言模型与强化学习相结合，我们提出了一个新颖的集成框架，旨在管理奖励函数中被忽视的元素和状态信息中的缺陷，从而增强强化学习代理的策略。经过广泛测试，我们的方法在降级通信条件下将平均等待时间减少了 17.5％，突显了在智能交通系统中推进实际强化学习应用的潜力。

Jul, 2024

关于连续时间策略评估的贝尔曼方程 I：离散化与逼近

从离散观察到的连续时间扩散过程轨迹计算价值函数的问题，我们开发了一种基于易于实现的数值方案的新类算法，与具有函数逼近的离散时间强化学习兼容。通过基于椭圆结构的方法得到有界逼近因子，即使有效范围发散到无穷大。

Jul, 2024

通过深度强化学习实现文本和表格的问答

本论文提出了一种新颖的架构，用于生成需要来自文本和表格的信息的开放域问题的多跳答案，使用开放表格和文本问答数据集进行验证和训练。该架构使用强化学习来选择不同的最先进工具，直到生成所需的答案为止，达到了 19.03 的 F1 得分，与文献中的迭代系统相当。

Jul, 2024

强化学习和训练评估器的无监督视频摘要

提出了一种采用增强学习的无监督视频摘要新方法，通过引入生成 - 判别器体系结构的不稳定训练和依赖手工制定的质量评估奖励函数等问题，改进无监督方法，使其产生与原始视频密切相似的精炼信息摘要。通过采用特殊的奖励生成流程，通过强化学习调训摘要模型的方式，生成模型可以从被部分覆盖的视频中重建部分帧，并将重建的摘要视频与原始视频进行比较。实验结果表明，该训练流程生成的摘要模型较之于依赖手工制定奖励的方法更好地模仿人工生成的摘要视频，其 F 值在 TVSum 和 SumMe 数据集上分别为 62.3 和 54.5。此外，该方法在推理阶段的速度比先前报道的最先进方法快 300 倍。

Jul, 2024

Autoverse：一种可进化的游戏语言用于学习健壮的实体智能体

Autoverse 是一种可扩展的、用于单人 2D 网格游戏的可进化的领域特定语言，可以作为开放式学习算法的可扩展训练场。通过使用元胞自动机类似的重写规则来描述游戏机制，Autoverse 能够表达各种不同的游戏环境（如迷宫、地下城、推箱子谜题），这些环境对于强化学习代理来说是常见的测试基准。我们提出使用 Autoverse 从搜索中的模仿学习来启动开放式学习。通过进化 Autoverse 环境（其规则和初始地图拓扑）以最大化贪婪树搜索所需的迭代次数来生成日益复杂的环境和游玩轨迹的课程。然后，我们使用模仿学习将这些专家游玩轨迹提炼为基于神经网络的策略。最后，我们将学到的策略作为开放式强化学习的起点，不断进化新的训练环境，最大化强化学习代理的值函数误差，从而提高生成环境的可学习性和泛化性能。

Jul, 2024

通过基于表示的屏蔽增强部分隐藏城市交通环境下自主代理的安全性

提出了一种以自主交通工具感知信息为中心的新型状态表示方法，通过强化学习实现安全导航，超过其他基准模型在安全和能耗度量方面的性能表现，同时保持了竞争力的平均行驶速度，为更健壮和可靠的自主导航策略铺平道路，从而实现更安全和高效的城市交通环境。

Jul, 2024

利用大型语言模型的背景知识提高强化学习的样本效率

用大型语言模型 (DLLM) 提取环境背景知识的框架，可在多个强化学习任务中提高样本效率。

Jul, 2024

Craftium: 一个可扩展的用于创建强化学习环境的框架

Craftium 是一个基于 Minetest 游戏引擎和 Gymnasium API 构建的创新框架，用于探索和创建丰富的三维视觉强化学习环境，允许从简单的视觉任务到无限和程序化生成的世界，创建完全定制的环境来适应特定的研究需求，并提供了五个可用于基准测试和开发新环境的示例环境。

Jul, 2024