- 基于标量化的风险概念的鲁棒多目标优化
基于鲁棒优化的多目标问题,介绍了鲁棒化和标量化两种关键操作之间的哲学差异,展示了风险概念在鲁棒多目标优化问题中的集成,并通过两个基于真实数据集的案例研究验证了这些新思路的有效性。
- R2 指标与深度强化学习增强的自适应多目标进化算法
提出了一种基于强化学习的双深度 Q 网络优化算法结构,通过使用 R2 指标将单目标结构转化为多目标结构,以及通过评估每代算法的性能构建强化学习奖励函数,该算法在与其他基于 R2 指标的六种算法进行比较时表现出优秀的性能。
- 自适应分布式强化学习的多目标优化
提出了一个高学习效率、计算要求低的多目标、多智能体强化学习算法,适用于动态、分布式和嘈杂环境,通过稀疏和延迟奖励自动触发自适应的少样本学习,在智能交通系统中经过实证研究和与现有算法的比较,取得了更好的性能。
- JCLEC-MO:解决多目标优化工程问题的 Java 套件
JCLEC-MO 是一个 Java 框架,用于多目标优化,它使工程师能够在很少的编程工作下应用或改进大量多目标算法。
- 可变形图像配准的多目标学习
通过将最近提出的多目标神经网络训练方法与深度神经网络相结合,本文填补了多目标深度学习变形图像配准的研究空白,并通过对盆腔磁共振成像扫描的配准实验,实验表明多目标深度学习变形图像配准方法相比于提供单一配准结果,在临床使用角度具有更多的优点,能 - 增强机器人导航:单一和多目标强化学习策略的评估
本研究通过比较分析单目标和多目标强化学习方法,针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术,包括深度 Q 网络(DQN),深度确定性策略梯度(DDPG)和双延迟 DDPG(TD3),在 Gazebo - 基于路径的实用贝叶斯优化
我们提出了一种扩展的 SnAKe 算法,可以同时处理实验成本和输入参数变化成本,包括最大允许输入变化和多目标设置。
- 并行多目标超参数优化的均匀归一化与有界目标
机器学习模型的超参数优化是一个具有多目标的挑战性问题,本研究提出了一种多目标贝叶斯优化算法,通过统一目标规范化和随机化权重在标量化中解决了不同目标尺度的问题,并通过限制目标来提高算法效率,最后通过并行化加速了优化过程。
- 多目标种群训练
本文提出了一种基于多目标协同训练的超参数优化算法 MO-PBT,实验结果表明 MO-PBT 在多个多目标超参数优化问题上表现优异,胜过其他算法。
- MULTIGAIN 2.0: 面向多个平均回报、LTL 和稳定状态约束的 MDP 控制器合成
MULTIGAIN 2.0 是 MultiGain 的一个扩展工具,它基于概率模型检查器 PRISM,并在多目标控制器合成方面进行了扩展,不仅支持多维长期平均奖励结构、稳态约束和线性时间逻辑属性的概率系统的形式验证和合成,还提供了寻找有限内 - 基于深度强化学习的地面车辆越野路径规划多目标优化
该论文提出了一种基于深度强化学习的 2.5D 多目标路径规划方法,包括将高分辨率 2.5D 地图转换为小规模地图,使用深度 Q 网络(DQN)在小规模地图上找到期望路径,最后使用路径增强方法将规划路径建立到原始高分辨率地图上,模拟结果表明该 - 基于数据驱动的连续学习框架,以加速和优化多目标制造决策
提出了一种基于数据驱动的贝叶斯优化框架,利用顺序学习来有效优化具有多个相互冲突目标的复杂系统,其中使用一种新的度量来评估多目标数据驱动优化方法的质量和生成所需的数据量,并在制造数据集上进行了评估,结果表明,该算法可以在处理更少的数据的情况下 - 使用转移学习的多目标进化剪枝深度神经网络以提高其性能和鲁棒性
提出一种名为 MO-EvoPruneDeepTL 的多目标进化修剪算法,利用转移学习将深度神经网络的最后层替换为稀疏层,通过性能、复杂度和稳健性引导演化,实验结果表明该算法在所有目标方面都取得了有前途的结果,且网络修剪带来的影响有助于解释输 - 多目标强化学习中的福利与公正
本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learni - 风险感知和多目标强化学习的蒙特卡罗树搜索算法
本文提出了两种基于蒙特卡罗树搜索的算法,能够针对非线性效用函数计算风险意识和多目标环境下的回报策略,并考虑累计回报,同时,这两个算法在多目标强化学习中,预期回报的表现超越了现有的最优算法。
- 使用改进的概率提高选择技术的多目标贝叶斯全局优化并行算法
本文提出了五种多目标贝叶斯全局优化的概率提高算法 (q-PoI),适用于多个解点的批量评估,并针对这些算法的位置依赖行为进行了探讨,并通过实证实验证明了两种贪婪型的 q-PoIs 在低维问题上的有效性以及两种探索性的 q-PoIs 在高维问 - DRL-ISP: 深度强化学习多目标摄像机 ISP
本文提出了一种多目标相机 ISP 框架,利用深度强化学习和相机 ISP 工具箱,通过选择和应用 51 种不同的工具来最大化给定视觉任务特定的奖励函数,有效地提高了图像质量。
- ACL利用 Transformers 的生成和判别能力构建开放式填空测试
本论文提出了第一个多目标变压器模型,用于构建完形填空测试,利用生成和辨别能力来提高性能,实验表明,我们的方法在自动和人工评估中可以达到 82%的准确性,超过了之前的方法和基线。
- AAAI从偏好中推断按字典序排序的奖励
本研究提出了一种基于多目标奖励的代理人观察到的喜好的方法,在医疗保健中应用示例,包括癌症治疗和器官移植,通过字典序排序的奖励,学习到更好的决策者偏好的理解,帮助改善政策并在强化学习中使用。
- ICML输入噪声下的稳健多目标贝叶斯优化
本文提出了一种新的多目标贝叶斯优化方法,旨在解决存在输入噪声的多目标优化问题,通过优化多维风险价值 (MVaR) 来产生适应噪声并能够满足多个指标要求的最优设计。