级联碰撞关注

ACLMay, 2021

Cascaded Head-colliding Attention

Lin Zheng, Zhiyong Wu, Lingpeng Kong

TL;DR通过将多头注意力机制重新制定为潜在变量模型，提出了层次变分分布结构的串级头碰撞注意力（CODA）模型，该模型能够显式地建模不同注意头之间的交互，从而提高模型参数的使用效率，实验结果表明，CODA 模型在语言模型和机器翻译等任务上相比 transformer 模型表现更优。

Abstract

transformers have advanced the field of natural language processing (NLP) on a variety of important tasks. At the cornerstone of the Transformer architecture is the multi-head attention (MHA) mechanism which mode

transformers natural language processing multi-head attention mechanism latent variable model parameter efficiency

发现论文，激发创造

图灵程序的通用长度泛化

通过提出图灵程序，将算法任务分解为模仿图灵机计算步骤的链式思维策略从而实现对一系列算法任务的稳健长度泛化，并证明了变压器模型能够实施图灵程序，并构造了一个模拟任意图灵机的简单 RASP（Weiss et al.）程序。

Jul, 2024

终止可微分树专家

我们提出了一种基于神经符号不可微分树模型的改进方法，通过使用变压器和张量乘积表示学习树操作，并引入了专家混合物和终止算法，以灵活选择执行步骤和预测最优步数。

Jul, 2024

Renard：从叙事文本中提取人物网络的模块化流程

Renard 是一个 Python 库，允许用户自定义自然语言处理（NLP）管道，从叙事文本中提取角色网络。与现有工具不同，Renard 可以提取动态网络和更常见的静态网络。Renard 管道是模块化的：用户可以选择每个 NLP 子任务的实现，以提取角色网络。这使用户可以将管道专门用于特定类型的文本，并研究每个子任务对提取网络的影响。

Jul, 2024

通用逼近理论：大型语言模型的基础理论

利用通用逼近理论（UAT）作为理论背景，研究了语言模型的理论基础和技术策略，探讨了 Transformer 的有效性、In-Context Learning、精调和修剪的实用性。

Jul, 2024

基于上下文分解的 Transformer 中的机制解释

本文介绍了一种用于 transformers 的上下文分解的解释方法，可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献，用于电路发现等任务，并通过实验验证了其在局部解释方面的出色能力。

Jul, 2024

事件响应人员的电子邮件归档、处理和标记系统

提出了一种名为 POST 的 API 驱动的无服务器电子邮件归档、处理和标记工作流解决方案，用于快速搜索恶意内容，降低成本并提供高效的电子邮件安全和取证能力。

Jul, 2024

LLM 生成的自然语言遵循缩放定律：新探索与数据增强方法

使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的，可能会影响分类器的性能。为了解决这些问题，引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验，揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差，强调了人类自然语言的复杂性优势，并对语言风格进行了解释性的讨论，为大型语言模型的扩展奠定了坚实的基础。此外，引入了一种新的数据增强方法，称为 ZGPTDA，利用基于标度律的模糊计算机制对 GPT-4 生成的数据进行决策。在真实世界的场景下进行的大量实验证实了 ZGPTDA 的有效性（将 Bert 和 RoBerta 的 F1 值提高了 7-10%）和竞争力（在 DeBerta 上的准确性超过了最近的 AugGPT 和 GENCO 方法约 2%）。此外，揭示了一些有趣的发现，如 Hilberg 的定律和 Taylor 的定律对文本分类可以带来更多的好处等。

Jun, 2024

增强神经表示的准确性和参数效率

参数化神经网络权重的准确性和参数效率之间的基本权衡被研究，表明通过仅使用权重重构目标可以有效地实现恢复原始模型的准确性。此外，通过探索提高权重重构在参数效率约束下的潜在因素，提出了一种新的训练方案，将重构目标与知识蒸馏等辅助目标分离，相对于最先进的方法取得了显著的改进。最后，这些结果为更实际的场景铺平道路，其中需要同时改进模型准确性和预测网络参数效率。

Jun, 2024

IDT：双任务对抗攻击用于隐私保护

本研究使用对抗攻击技术改变文本以欺骗隐私分类器，同时保持针对其他任务的分类器预测不变，提出了 IDT 方法，分析辅助及可解释模型的预测结果，以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇，实验证明 IDT 在保护隐私的同时仍保持了文本的实用性，并且在欺骗隐私分类器的任务上优于现有方法。

Jun, 2024

基于结构化图模型和变压器的模型预测仿真

我们提出了一种基于 transformers 和概率图模型的多个相互作用代理（道路用户）轨迹模拟方法，并将其应用于 Waymo SimAgents 挑战。我们的方法基于 MTR 模型，使用先验知识编码因子来生成并改进轨迹预测，该模型通过执行高斯牛顿方法的（近似）最大后验推理来采样数十个代理的未来轨迹。我们的方法名为 “模型预测模拟”（MPS），在安全关键指标（如碰撞率）方面改进了 MTR 基线，并且与任何潜在预测模型兼容，不需要额外的训练。

Jun, 2024