- CVPR密集视频字幕生成与跨模态记忆检索
通过使用外部记忆库和跨模态视频 - 文本匹配方法,我们提出了一种新的框架来解决密集视频字幕的挑战,实现了事件定位和事件字幕任务的自动化。实验结果表明,在 ActivityNet Captions 和 YouCook2 数据集上,我们的模型表 - kNN 语言模型的可控生成的风格局部性
使用外部存储器改进的最近邻语言模型,通过检索相似的语境来辅助词语预测,添加局部级别使模型能够学习如何根据相对于源文件中当前文本的位置来加权邻居,从而进一步提高模型性能。我们提出了一种新的方法,并在礼貌、正式、支持性和毒性文本数据上进行自动和 - 增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别
我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络,用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能,因为它允许系统循环地存储和检索更多信息。实验结果表明,我们提出的 Conformer-NT - 神经图像压缩的带宽有效推理
我们提出了一种端到端可微分的带宽高效神经推理方法,通过神经数据压缩方法对激活进行压缩,可实现高达 19 倍的带宽减少和 6.21 倍的能量节省。
- 聚焦 Transformer:上下文缩放的对比训练
提出了一种名为 Focused Transformer(FoT)的技术,通过对称的学习过程来增强(键,值)空间的结构,从而提供更长的上下文长度,有效地解决了大型语言模型在处理长文本时的局限性。
- ACL以 Prompted LLMs 作为聊天机器人模块进行长时间开放域对话
本文提出了一种新的方法 MPC(模块化提示聊天机器人),该方法利用预训练的大型语言模型作为独立模块,通过使用 few-shot prompting、chain-of-thought 和外部记忆等技术,实现长期的一致性和灵活性。我们的人类评估 - 记忆增强型大语言模型是计算通用的
我们展示了通过增加外部记忆来增强变压器型大语言模型以实现计算机普适性的方法。在不修改语言模型权重的情况下,我们将迭代设计被存储的指令计算机以精确模拟通用图灵机 U 15,2,从而证明了这一方法的可行性。
- 自监督学习的情景推理
本文基于自监督学习提出了一种上下文感知的自监督学习方法 SeCo,该方法使用可学习的外部记忆存储先前的上下文信息以支持目标辨识,通过两个评估协议证明 SeCo 的性能优于目前最先进的自监督学习方法,并准确模拟人类学习行为。
- 检索增强的多模态语言建模
提出了一种 “检索增强的多模态模型”,结合了预检索检索任务和预训练的模型,在图像生成和描述生成任务上实现了比以前模型更好的表现,同时大大降低了训练成本。
- CVPRToken Turing 机
提出了 Token Turing Machines (TTM),这是一种用于实现现实生活中序列视觉理解的序列自回归 Transformer 模型,它具有外部记忆,可以高效地处理长序列,其内存模块可以确保新的观察仅与记忆内容一起处理 (而不是 - EMNLP最近邻语言模型用于风格可控生成
本文构建并评估了一种基于外部记忆的语言建模方法,利用政治正确、正式性和毒性等属性进行样式控制,结果显示基于样式专用数据存储器的生成性能得到了提高,但仍需在未来的工作中探索预训练数据和特定样式的效果。
- 检索增强转换器用于图像字幕生成
本论文中,我们研究了一种基于 kNN 记忆的图像字幕生成方法,其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO - 基于检索的长尾视觉识别分类
提出了 Retrieval Augmented Classification (RAC) 方法,并应用于解决长尾分类问题,通过显式引入检索模块,使用非参数化外部内存信息显著提高了 Places365-LT 和 iNaturalist-201 - ICML跨任务特征对于类别增量学习的重要性
本文探讨了类增量学习中跨任务特征的学习对于基本重放策略性能的影响,提出了一个新的类增量学习遗忘度量,并通过实验结果发现未来类增量学习算法不仅要防止遗忘,还要提高跨任务特征质量和任务之间的知识转移,特别是在任务数据有限的情况下。
- 多跳问答的记忆增强连续段落检索
本文提出一种新的方法,将段落建模为序列数据,并将多跳信息检索视为一种序列标记任务,从而解决传统基于图的方法存在的固有缺陷,并通过引入外部可重写记忆和阈值门机制,提高了热点问题回答数据集 HotpotQA 上的检索和下游 QA 任务的表现,并 - ICLR一个深度网络用于灵活地组合情节记忆
发展神经网络结构与外部存储器的最近研究,为了更仔细地探究现有记忆增强框架的推理能力,我们使用了以前认知神经科学文献中的经典关联推断任务,其捕捉跨越多个事实或记忆分布的元素之间的远距离关系,结果表明当前架构在处理长距离关联推理时存在困难,因此 - 神经存储程序内存
本文提出一种新型的神经存储程序内存,用于在神经控制器中存储权重,类似于现代计算机体系结构中的存储程序内存,从而增强了当前存储扩展神经网络,创建了可微分机器,可以通过时间切换程序,适应可变上下文,类似通用图灵机,可用于经典算法问题,组合、持续 - ICML状态规则化递归神经网络
通过使用一种被称为状态规范化的机制来处理以前递归神经网络(RNNs)的不足,从而提高 RNNs 的状态转移动态分析和解释性,并将其应用于自动机抽取,自然语言处理和计算机视觉中。
- 变分记忆编码器 - 解码器
本文介绍了通过使用外部记忆的混合模型 —— 变分记忆编码器 - 解码器(VMED),在保持一致性的同时引入变异的方法来生成对话中的话语。在各种对话数据集上的实验证明,VMED 在指标和素质评估方面均取得了显著的改进。
- 使用 Reservoir Sampling 将情景记忆集成到强化学习智能体中
该文研究了利用固定数量的过去状态来维护一个外部内存的新算法,使得深度强化学习代理能够在线记忆有用的状态,并可以在在线强化学习设置中实现梯度估计。