级联碰撞关注
通过提出图灵程序,将算法任务分解为模仿图灵机计算步骤的链式思维策略从而实现对一系列算法任务的稳健长度泛化,并证明了变压器模型能够实施图灵程序,并构造了一个模拟任意图灵机的简单 RASP(Weiss et al.)程序。
Jul, 2024
Renard 是一个 Python 库,允许用户自定义自然语言处理(NLP)管道,从叙事文本中提取角色网络。与现有工具不同,Renard 可以提取动态网络和更常见的静态网络。Renard 管道是模块化的:用户可以选择每个 NLP 子任务的实现,以提取角色网络。这使用户可以将管道专门用于特定类型的文本,并研究每个子任务对提取网络的影响。
Jul, 2024
利用通用逼近理论(UAT)作为理论背景,研究了语言模型的理论基础和技术策略,探讨了 Transformer 的有效性、In-Context Learning、精调和修剪的实用性。
Jul, 2024
本文介绍了一种用于 transformers 的上下文分解的解释方法,可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献,用于电路发现等任务,并通过实验验证了其在局部解释方面的出色能力。
Jul, 2024
提出了一种名为 POST 的 API 驱动的无服务器电子邮件归档、处理和标记工作流解决方案,用于快速搜索恶意内容,降低成本并提供高效的电子邮件安全和取证能力。
Jul, 2024
使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的,可能会影响分类器的性能。为了解决这些问题,引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验,揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差,强调了人类自然语言的复杂性优势,并对语言风格进行了解释性的讨论,为大型语言模型的扩展奠定了坚实的基础。此外,引入了一种新的数据增强方法,称为 ZGPTDA,利用基于标度律的模糊计算机制对 GPT-4 生成的数据进行决策。在真实世界的场景下进行的大量实验证实了 ZGPTDA 的有效性(将 Bert 和 RoBerta 的 F1 值提高了 7-10%)和竞争力(在 DeBerta 上的准确性超过了最近的 AugGPT 和 GENCO 方法约 2%)。此外,揭示了一些有趣的发现,如 Hilberg 的定律和 Taylor 的定律对文本分类可以带来更多的好处等。
Jun, 2024
参数化神经网络权重的准确性和参数效率之间的基本权衡被研究,表明通过仅使用权重重构目标可以有效地实现恢复原始模型的准确性。此外,通过探索提高权重重构在参数效率约束下的潜在因素,提出了一种新的训练方案,将重构目标与知识蒸馏等辅助目标分离,相对于最先进的方法取得了显著的改进。最后,这些结果为更实际的场景铺平道路,其中需要同时改进模型准确性和预测网络参数效率。
Jun, 2024
本研究使用对抗攻击技术改变文本以欺骗隐私分类器,同时保持针对其他任务的分类器预测不变,提出了 IDT 方法,分析辅助及可解释模型的预测结果,以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇,实验证明 IDT 在保护隐私的同时仍保持了文本的实用性,并且在欺骗隐私分类器的任务上优于现有方法。
Jun, 2024
我们提出了一种基于 transformers 和概率图模型的多个相互作用代理(道路用户)轨迹模拟方法,并将其应用于 Waymo SimAgents 挑战。我们的方法基于 MTR 模型,使用先验知识编码因子来生成并改进轨迹预测,该模型通过执行高斯牛顿方法的(近似)最大后验推理来采样数十个代理的未来轨迹。我们的方法名为 “模型预测模拟”(MPS),在安全关键指标(如碰撞率)方面改进了 MTR 基线,并且与任何潜在预测模型兼容,不需要额外的训练。
Jun, 2024