上下文信息导向采样
通过改进学习流程,我们提出了一种社交注意力强化学习(SARL)策略,该策略在不熟悉情况下能够保持足够的谨慎,并通过修改训练过程、更新价值网络和实现奖励函数等方式,有效减少碰撞和减少人行道上个体空间的占用时间。
Jul, 2024
基于机器学习的自动化事件响应代理需要处理网络结构的变化,通过使用关系代理学习方法,将计算机网络的状态表示为关系图,并使用信息传递神经网络对其进行编码,从而解决了在网络变化时重新训练代理的问题。
Jul, 2024
通过将大型语言模型与强化学习相结合,我们提出了一个新颖的集成框架,旨在管理奖励函数中被忽视的元素和状态信息中的缺陷,从而增强强化学习代理的策略。经过广泛测试,我们的方法在降级通信条件下将平均等待时间减少了 17.5%,突显了在智能交通系统中推进实际强化学习应用的潜力。
Jul, 2024
从离散观察到的连续时间扩散过程轨迹计算价值函数的问题,我们开发了一种基于易于实现的数值方案的新类算法,与具有函数逼近的离散时间强化学习兼容。通过基于椭圆结构的方法得到有界逼近因子,即使有效范围发散到无穷大。
Jul, 2024
本论文提出了一种新颖的架构,用于生成需要来自文本和表格的信息的开放域问题的多跳答案,使用开放表格和文本问答数据集进行验证和训练。该架构使用强化学习来选择不同的最先进工具,直到生成所需的答案为止,达到了 19.03 的 F1 得分,与文献中的迭代系统相当。
Jul, 2024
提出了一种采用增强学习的无监督视频摘要新方法,通过引入生成 - 判别器体系结构的不稳定训练和依赖手工制定的质量评估奖励函数等问题,改进无监督方法,使其产生与原始视频密切相似的精炼信息摘要。通过采用特殊的奖励生成流程,通过强化学习调训摘要模型的方式,生成模型可以从被部分覆盖的视频中重建部分帧,并将重建的摘要视频与原始视频进行比较。实验结果表明,该训练流程生成的摘要模型较之于依赖手工制定奖励的方法更好地模仿人工生成的摘要视频,其 F 值在 TVSum 和 SumMe 数据集上分别为 62.3 和 54.5。此外,该方法在推理阶段的速度比先前报道的最先进方法快 300 倍。
Jul, 2024
Autoverse 是一种可扩展的、用于单人 2D 网格游戏的可进化的领域特定语言,可以作为开放式学习算法的可扩展训练场。通过使用元胞自动机类似的重写规则来描述游戏机制,Autoverse 能够表达各种不同的游戏环境(如迷宫、地下城、推箱子谜题),这些环境对于强化学习代理来说是常见的测试基准。我们提出使用 Autoverse 从搜索中的模仿学习来启动开放式学习。通过进化 Autoverse 环境(其规则和初始地图拓扑)以最大化贪婪树搜索所需的迭代次数来生成日益复杂的环境和游玩轨迹的课程。然后,我们使用模仿学习将这些专家游玩轨迹提炼为基于神经网络的策略。最后,我们将学到的策略作为开放式强化学习的起点,不断进化新的训练环境,最大化强化学习代理的值函数误差,从而提高生成环境的可学习性和泛化性能。
Jul, 2024
提出了一种以自主交通工具感知信息为中心的新型状态表示方法,通过强化学习实现安全导航,超过其他基准模型在安全和能耗度量方面的性能表现,同时保持了竞争力的平均行驶速度,为更健壮和可靠的自主导航策略铺平道路,从而实现更安全和高效的城市交通环境。
Jul, 2024
Craftium 是一个基于 Minetest 游戏引擎和 Gymnasium API 构建的创新框架,用于探索和创建丰富的三维视觉强化学习环境,允许从简单的视觉任务到无限和程序化生成的世界,创建完全定制的环境来适应特定的研究需求,并提供了五个可用于基准测试和开发新环境的示例环境。
Jul, 2024