- ACL更加注意源语言上下文:减轻大型语言模型带来的不忠译
在这篇研究中,我们提出了一种方法来解决大型语言模型在翻译过程中因未对齐问题而导致的不准确翻译的困扰,该方法通过调整源语言和目标语言的注意力权重、压制无关目标前缀的影响以及避免过度依赖目标前缀来改善翻译质量,实验证明该方法在多种语言对上的效果 - 重新审视注意力权重作为消息传递神经网络的解读
自我注意机制在信息传递神经网络(MPNNs)中得到了采用,它自适应地控制着沿着底层图的边缘流动的信息量。然而,现有的研究通常使用简单的计算方法来从注意力中推导出归因分数,并且不考虑边缘归属的精确和谨慎计算。
- 通过缩放单一维度来减轻大型语言模型的位置偏见
本文研究了大型语言模型中的位置偏见问题,发现注意力权重和因果性注意掩码是位置偏见的微观表现,提出了通过调整位置隐状态来减轻位置偏见的方法,并通过在多个任务上进行实验验证了该方法的有效性和普适性。
- 基于注册辅助的视觉地点识别聚合
使用新的特征聚合方法,通过注册器辅助模型训练,以获取具有辨别性地点信息的全局和局部特征,并通过重新分配注意力权重将这些注册器舍弃,从而实现对原始图像表示中不稳定特征的有效分离,其表现超过了现有方法
- EVA:零射击准确属性和多对象视频编辑
EVA 是一种针对复杂动作的以人为中心的视频编辑框架,利用空间 - 时间布局引导的注意机制和精确的注意权重分布来同时编辑前景和背景,以及实现多属性和跨帧扩散特征的内在正负对应,达到精确的文字到属性操控和身份映射,从而取得实际场景下的最先进结 - CVPR令牌转换的重要性:为了视觉变换器的忠实后置解释
利用我们提出的令牌变换效果的度量来将令牌转换效果纳入解释中,通过在模型的所有层中整合注意权重和令牌转换效果,捕捉整体令牌贡献。实验结果表明,与最先进的 Vision Transformer 解释方法相比,我们提出的 TokenTM 方法具有 - PrimeComposer:基于注意力引导的图像合成的快速逐步组合扩散
本论文提出了 PrimeComposer,一种快速训练无关的扩散器,通过在不同噪声水平上精心设计的注意力引导来组合图像。该方法主要通过使用我们的关联扩散器,在每个步骤上利用其自注意层来实现。我们的方法在前景生成、合成质量和推理效率方面都表现 - 基于高效注意力的特征增强场景解析
本文提出了一种新颖的特征增强网络,通过从多个特征提取级别收集空间上下文,并计算每个表示级别的注意力权重以生成最终的类别标签。该模型还学习了低分辨率下的空间上下文信息以保留场景元素之间的抽象空间关系并降低计算成本,最终的特征集合中融合了空间注 - 大型语言模型如何在上下文中学习?在上下文头部中的查询和关键矩阵是度量学习的两个关键因素
我们通过定位和投射方法探索了上下文学习的机制,并提出了一种假设。在浅层中,合并演示的特征到对应的标签中,将输入文本的特征聚合到最后一个标记中。在深层中,上下文头起到了重要作用。在每个上下文头中,值输出矩阵提取标签的特征。查询和键矩阵计算输入 - 强化学习中基于人类反馈的免费密集奖励
从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展,通过使用注意力权重重新分配奖励以高亮最重要的标记,它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。
- 通过概念瓶颈解读预训练语言模型
利用高层次、易于理解的概念来解释预训练语言模型的方法,通过人工标注和机器生成的概念来提取隐藏神经元,从而增强模型的鲁棒性和解释能力。
- EMNLP将 Transformer 模型作为图到图模型
我们认为 Transformer 模型本质上是图到图的模型,序列只是一种特殊情况。注意力权重在功能上等价于图中的边。我们的图到图 Transformer 架构明确地表达了这个能力,通过将图的边作为输入用于注意力权重计算,并使用类似于注意力的 - 揭开变形金刚:基于注意力权重的数据恢复理论方法
通过注意力权重和输出,我们介绍了一个目标在恢复输入数据的算法,从而解决深度学习模型中安全和隐私问题,并揭示了模型设计中的潜在漏洞。
- TransformerG2G:使用 Transformer 学习时变图嵌入的自适应时间步长
开发了一种具有不确定性量化的图嵌入模型 TransformerG2G,通过利用先进的转换编码器从当前状态 ($ t $) 和先前上下文(在时间戳 [$ t-1,t-l $] 上,$ l $ 是上下文的长度)中首先学习中间节点表示。
- 低资源说话者验证的动态核和通道注意力
本文提出一种利用卷积神经网络中的基于注意力的动态卷积核来提高模型分辨率能力的方法,将模型参数适应于特征条件,通过通道注意力和多层特征聚合进一步提取全局语音特征,从而提高特征表示效果。实验结果表明,该方法在使用较少数据的情况下取得了良好的识别 - 源代码上的有意义关注点提取:开发人员和神经模型代码探索的实证研究
本文研究了神经代码模型在代码理解中的应用,提出通过注意力权重对模型进行后处理以支持代码探索,并通过基于眼动追踪的实验比较了几种注意力后处理方法和启发式算法。
- ICLR特征选择的序列注意力
该研究提出一种名为 Sequential Attention 的特征选择算法,使用注意力权重作为特征重要性的代理,实现了神经网络的最新实证结果;通过在线性回归方面提出的理论分析,可与经典的 Orthogonal Matching Pursu - CVPR准确高效的立体匹配中的注意力串联体积
本论文提出了一种新颖的代价体积构建方法,其通过生成来自相关线索的注意力权重来抑制冗余信息并增强匹配相关信息,并且还设计了一种基于 ACV 的高精度网络(ACVNet),在多个基准测试上都取得了最先进的性能。
- ICML神经网络的双重形式再探:通过注意力聚焦将测试时间的预测与训练模式相连
研究发现,神经网络中的线性层可以表达为具有键值记忆系统的形式,可以存储所有训练数据点和初始权重,并使用整个训练经验的未标准化点注意力产生输出。作者通过实验,探索了在单任务、多任务和不断学习情况下的小规模监督图像分类任务和语言模型中,如何理解 - OH-Former:全关系高阶变换器用于人员再识别
本文提出了一种 Omni-Relational High-Order Transformer (OH-Former) 算法,针对人员再识别 (Person Re-Identification, ReID) 任务,通过建模高阶统计信息来加强视