模糊逻辑引导的奖励函数变化：强化学习程序测试的预示者

Jun, 2024

模糊逻辑引导的奖励函数变化：强化学习程序测试的预示者

Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs

Shiyu Zhang, Haoyang Song, Qixin Wang, Yu Pei

TL;DR提出基于模糊逻辑的自动化预言方法来解决强化学习程序中的预言问题，通过量化智能体对奖励策略的行为一致性并分析其在训练过程中的趋势，如果行为一致性趋势违反预期，则将程序标记为 “有问题”，研究结果表明该方法在复杂环境中表现出优越的性能，为强化学习程序的测试提供了潜在的解决方案，提升了测试的效率、可靠性和可扩展性。

Abstract

reinforcement learning (RL) has gained significant attention across various domains. However, the increasing complexity of RL programs presents testing challenges, particularly the oracle problem: defining the correctness of the RL program. Conventional human oracles struggle to cope w

reinforcement learning automated oracle approach fuzzy logic rl program testing complex environments

发现论文，激发创造

通过自然语言指导的语义探索提高深度强化学习的效率

用检索式方法通过神经网络编码，选择性、高效地与 oracle 进行交互，并使用 oracle 的答案更新 agent 的策略和值函数，从而在强化学习任务中大幅提高效率。

Sep, 2023

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023

基于搜索的强化学习测试

研究开发了基于搜索的深度强化学习测试框架，用于评估深度强化学习代理的性能和安全性，其中包括利用搜索算法进行参考跟踪的安全测试和创建多样化的跟踪以评估代理的总体性能。

May, 2022

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

基于不确定性感知的强化学习，用于人在循环机器人代理的决策制定

本文介绍一种基于强化学习的半自主智能体，当其对任务成功的信心较低时，通过估计当前状态回报的方差来请求外部帮助，该方法在离线训练期间没有访问专家，并在多个离散导航问题中有效利用有限的专家调用预算。

Mar, 2023

道德不确定性下的强化学习

该研究论文提出两种训练方法实现不同的期望，通过在简单环境中训练智能体在道德不确定性下行动，从而促进具有道德能力的代理人的进展，并突显强化学习对道德哲学的计算基础的潜力。

Jun, 2020

利用强化学习代理为人在环境中提供遵守建议的验证

本文介绍了一种基于 Tree-based lingua-franca 的新颖交流方法，并探索了基于此方法的 Human-in-the-loop 反馈机制，提供具有可解释性的方法以解决 Advice-Conformance Verification 问题，并通过实验证明了该方法的有效性和有效性。

Oct, 2022

具有时态逻辑奖励的强化学习

本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法，用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中，表现出了优异的鲁棒性能。

Dec, 2016

深度强化模糊测试

本文提出一种新的基于强化学习的模糊测试方法，使用马尔可夫决策过程和深度 Q 学习算法实现。初步实证结果表明，与基准随机模糊测试方法相比，强化模糊测试能够取得更好的结果。

Jan, 2018

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023