增强记忆:利用经验重放加速全新分子设计
Memory Augmented Policy Optimization (MAPO) improves policy gradient's sample efficiency and robustness on tasks with sparse rewards. When applied to weakly supervised program synthesis from natural language, it achieves state-of-the-art accuracy with only weak supervision.
Jul, 2018
本文提出一种新的深度学习框架 Deep Generative Replay 来解决在实现万能人工智能时的一个长期问题:灾难性遗忘。通过引入灵感于灵长类大脑海马体的短期记忆系统,在该框架中包含一个生成模型和一个任务求解模型,并在图像分类任务中进行了相关实验和测试。
May, 2017
本文提出了一种通过从多个信息语料库(“外部记忆”)检索增强文档的机制,即 Mixture-Of-Memory Augmentation(MoMA),来改善语言模型的零样本泛化能力,并以一种零样本密集检索环境为例,使用 MoMA 增强强 T5-based retriever 模型。MoMA 在标准 BEIR 基准测试中获得了强的零样本检索准确性,优于寻求从增加模型参数和计算步骤进行泛化的系统,并证明了 Mixture-Of-Memory 的必要性及其学习的好处,同时展示了 MoMA 如何利用插入式存储器在推理时不改变其参数。
Feb, 2023
该论文通过引入大型知识丰富词汇的路由功能和专家,以 Mixture-of-Experts (MoE) 风格模型,积极地解耦学习容量与 FLOPs,提出了一种名为 Mixture of Word Experts (MoWE) 的方法,它可以被视为一种记忆增强模型,其中一组特定于单词的专家起到了稀疏记忆的作用,研究表明,在各种 NLP 任务中,MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列,此外,MoWE 在知识密集型任务上胜过常规的 MoE 模型,并且具有与更复杂的记忆增强方法相似的性能,而后者通常需要调用自定义机制来搜索稀疏记忆。
Nov, 2023
我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法,通过从目标 Q 网络到当前 Q 网络合并知识,减少遗忘并保持高的样本效率。与基线方法相比,在特征和图像任务中取得了相当或更好的性能,同时减轻了大经验重放缓冲区的负担。
May, 2022
通过优化采样权重,将优先经验回放应用于多智能体强化学习 (MARL) 中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。
Feb, 2023
通过引入一种扩充缓冲区的方法来缓解记忆约束,将其与基于模型的强化学习算法结合使用,从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性,并证明了在潜在世界模型的背景下,用于回放缓冲区的分布匹配扩充可以成功防止灾难性遗忘,并大大减少了计算开销。然而,我们也发现此类解决方案并非完全没有缺陷,还存在缺乏可塑性和无法学习新任务等失败模式,可能是持续学习系统的潜在限制。
Jan, 2024
本文介绍了一种基于序列的生成模型来设计分子的方法,通过增强情节似然性可以学习生成具有某些指定的理想特性的结构。将模型应用于生成类似物质结构,生成与药物 Celecoxib 类似的分子以及具有活性的化合物。最后,将模型调整为生成预测对多巴胺受体 2 具有活性的化合物,得到了 95% 以上的预测为活性的结构,其中包括实验证实的活性化合物。
Apr, 2017
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019