光照系统的增强学习自适应模糊控制器:用于飞机机舱的应用
本文介绍了一种名为 Fuzzy MoCoCo 的基于模糊规则的政策演化系统,它利用多目标和合作协同机制,通过在连续状态 RL 环境 Mountain Car 上测试,结果表明该系统能够有效地探索政策性能和复杂性之间的平衡,并学习使用尽可能少的规则的可解释和高性能政策。
May, 2023
本文提出了一种基于模糊强化学习的能量管理策略,以减少燃料消耗,维护电池的长期运行和延长燃料电池系统的使用寿命。通过考虑惩罚函数抑制燃料电池的频繁启动,应用模糊逻辑来近似 Q 学习中的价值函数,解决了连续状态和操作空间的问题。最终,基于 Python 的培训和测试平台验证了该方法的有效性和自学习改进,在初始状态变化、模型变化和驾驶条件变化的情况下。
Feb, 2023
该研究通过采用人的反馈,使用一种名为强化学习(RL)的方法,提出一种捕捉快速喷气机飞行员处理能力的软件模型。该模型通过对模拟飞行轨迹的成对偏好进行学习,得出一个可解释的基于规则的模型(reward tree),它能够自动将轨迹进行评分,并生成解释性的原理。使用奖励树作为 RL 代理的导向目标,该代理能够执行高质量的处理行为,并产生数据用于迭代偏好收集和进一步的修正。实验结果表明,使用原型成对偏好的奖励树,在定性和定量评估中与不可解释的神经网络奖励模型具有相媲美的表现。
May, 2023
通过采用基于模型的强化学习方法,进行保守化自适应策略的制定,避免用户面临更高的成本,并通过预测人机交互模型来评估其效果,比非自适应和基于频率的策略表现更好,这一方法在自适应菜单的案例中得到了实证和模拟结果的支持。
Mar, 2021
该论文提出了基于机器学习的智能照明系统,通过轨迹预测在识别用户的即时未来位置上为每个人个性化地调整照明,其中包括人体检测、人脸识别、人体跟踪和轨迹预测四个模块,能够较快且高效地应用所需光照,提供更加舒适的住宅环境。
Apr, 2023
本文提出了一种基于深度强化学习的相机曝光控制框架,以实现实时处理并在不同动态光照条件下迅速控制相机曝光。该框架通过简化训练场景、奖励设计、状态设计和域随机化等方法,实现了在五个步骤内快速达到所需曝光水平,并在不同计算机视觉任务中表现出优越性。
Apr, 2024
利用新型神经网络模型预测占用者的热舒适状态,分别应用了 Bayesian Gaussian Process Optimization (BGPO) 和 Augmented Firefly Algorithm (AFA) 优化算法来平衡空调系统的能效和占用者的热舒适感,实验结果表明,在样本数量一定时,AFA 算法比 BGPO 算法更稳定,并且在能效用户偏好条件下,BGPO 和 AFA 的最佳节能率分别为 -21% 和 -10%,可在新加坡实验室节约 S$1219.1。
Apr, 2022
该研究报告介绍了一种名为 EcoLight 的奖励塑造方案,用于强化学习算法中,既可以减少二氧化碳排放,又可以在诸如旅行时间之类的指标上获得具有竞争力的结果。该研究比较了采用表格型 Q 学习、DQN、SARSA 和 A2C 算法的性能,使用的指标包括旅行时间、二氧化碳排放、等待时间和停车时间,考虑了多种道路使用者(卡车、公交车、汽车)和不同污染水平的多个场景。
Oct, 2023
提出了一种用于构建敏捷飞机的数据驱动机动生成模型的方法,该方法能够在广泛的修正条件和飞机模型参数范围内进行泛化。通过利用模拟模型和有限的真实飞行员数据,结合模仿学习、迁移学习和强化学习等技术,实现了对目标飞机的机动生成模型的优化和调整。验证为该方法在开发敏捷飞机的强大和适应性模型方面的有效性。
Dec, 2023