使用深层生成模型进行多任务强化学习的探索

NIPSNov, 2016

使用深层生成模型进行多任务强化学习的探索

Exploration for Multi-task Reinforcement Learning with Deep Generative Models

Sai Praveen Bangaru, JS Suhas, Balaraman Ravindran

TL;DR使用深度生成模型和低维能量模型辅助多任务强化学习中的探索，以便于系统识别，从而提供鲁棒且适应性强的探索信号。

Abstract

exploration in multi-task reinforcement learning is critical in training agents to deduce the underlying MDP. Many of the existing exploration

multi-task reinforcement learning exploration deep generative models energy model system identification

发现论文，激发创造

数据稀缺场景下合成表格数据生成的人工归纳偏好

通过在有限真实数据环境下使用深度生成模型（Deep Generative Models, DGMs）生成逼真可靠的合成表格数据，该论文提出了一种新颖的方法，通过转移学习和元学习技术在 DGM 中生成人工归纳偏差。其中，采用预训练和模型平均等转移学习策略优于采用元学习方法，例如模型无关元学习和领域随机搜索。通过验证方法，使用变分自动编码器和生成对抗网络两种最先进的 DGM，表明我们的人工归纳偏差可提供更高质量的合成数据，通过 Jensen-Shannon 散度测量，相对收益可达 50％。该方法具有广泛适用性于各种 DGM 和机器学习任务，特别适用于数据稀缺常见的领域，如卫生保健和金融。

Jul, 2024

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

NLP-KG：一个自然语言处理科学文献的探索性搜索系统

科学文献搜索是一种探索性方法，现有的科学文献搜索系统通常限于基于关键词的查询搜索，我们提出 NLP-KG 系统，支持在不熟悉的自然语言处理 (NLP) 领域探索研究文献，并提供语义搜索、调研论文检索、研究领域层次图和聊天接口等功能，以帮助用户全面地探索和理解不同领域之间的关系、NLP 中的陌生概念以及找到相关的研究文献。

Jun, 2024

基于高斯信息的连续方法用于物性识别与模拟

通过视觉观察来估计物理特性 (系统辨识) 的问题，本论文介绍了一种新颖的混合框架，该框架利用三维高斯表示不仅能捕捉明确的形状，还能使模拟连续推导训练中的隐含形状。我们提出了一种基于运动分解的新型动态三维高斯框架，以在不同时间状态下恢复物体作为三维高斯点集。此外，我们开发了一种由粗到细的填充策略，从高斯重建生成物体的密度场，允许提取物体连续及其表面，并将高斯属性融入这些连续体中。除提取的物体表面外，高斯信息的连续体还能在模拟中渲染物体掩膜，为物理特性估计提供隐含形状引导。大量实验评估表明，我们的管线在多个基准和度量标准上达到了最先进的性能。另外，我们通过真实世界演示展示了所提方法的实用性。

Jun, 2024

进化启发式奖励引导的解码时对齐

利用进化方法，通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。

Jun, 2024

潜在解释器：用多模态基础模型解释深度生成模型中的潜在表示

本文介绍了 LatentExplainer，这是一个自动化生成深度生成模型中潜变量语义有意义解释的框架，通过扰动潜变量和解释生成数据的变化，提供了一种系统的方法来理解和控制数据生成过程，增强了深度生成模型的透明度和可解释性。

Jun, 2024

低层视觉中的扩散模型：概述

这篇综述论文全面地评估了扩散模型技术，并探讨了它们与其他深度生成模型的相关性，建立了理论基础。同时，该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况，提供了常用基准和评估指标的概述，以及针对三个主要任务的扩散模型技术的全面评估。最后，作者指出当前扩散模型的局限性，并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。

Jun, 2024

OpenECAD: 一个高效的计算机辅助设计的视觉语言模型

通过微调预训练模型创建了 OpenECAD，利用视觉语言模型的视觉、逻辑、编码和通用能力，将 3D 设计图像转换为高度结构化的 2D 草图和 3D 构造命令，并可直接与现有 CAD 工具的 API 一起使用，以生成项目文件。为了训练网络，创建了一个新的 CAD 数据集以满足视觉语言模型的需求。

Jun, 2024

综合先前策略解决新任务

多任务强化学习通过提供一种常见的形式化方法 IKH，聚焦于多任务强化学习的模块化和组合性，以增强智能体在动态环境中的学习和适应能力。

Jun, 2024

通过继任状态度量学习多样技能的探索

通过最大化互信息和探索奖励，我们的 LEADS 方法能够在不依赖奖励或探索奖励的情况下构建全面覆盖状态空间的多样化技能集合。

Jun, 2024