- IceFormer: 基于 CPU 的长序列 Transformer 加速推理
通过加速自注意机制在推断时的方法,我们成功加速了各种长序列转换器,并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升,同时保留了 98.6%-99.6% 的原始预训练模型的准确性。
- 使用领域不变单元的异构人脸识别
基于预训练的人脸识别模型作为教师网络,学习领域不变的网络层,称为领域不变单元(DIU),用于减小不同模态之间的领域差距,并通过对比蒸馏框架有效地进行训练,以提高适应各种数据变化的预训练模型的性能。在多个具有挑战性的基准测试中,我们广泛评估了 - 迈向在 Lean 中进行定理证明的大型语言模型作为副驾驶
该研究论文介绍了使用大型语言模型作为辅助工具的 Lean Copilot 框架,用于证明定理过程中的自动化,证明步骤建议、自动完成中间证明目标、选择相关前提条件等。实验证明了该方法较现有的基于规则的证明自动化方法在证明定理过程中对人类的辅助 - Bipol 下的数据偏差:男性天生右派,女性的角色是跟随他们的领导
我们介绍了关于三种语言中偏见的新的大型标记数据集,并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见,包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。 我们使用 SotA 多语言预训练模型 mT5 和 mBE - 逐层早停机制用于测试时间适应
通过引入 Layerwise EArly STopping (LEAST) 和使用一种新的基于梯度的度量来衡量当前学习特征对新域的相关性,我们提出了一种解决 Test Time Adaptation (TTA) 中保持学习新特征和保留预训练 - NJUST-KMG 在 TRAC-2024 任务 1 和任务 2 中的离线危害潜力识别
该研究提出了一种方法,使用 TRAC-2024 离线危害潜力识别,它包括两个子任务。研究利用了一个丰富的数据集,包含几种印度语言的社交媒体评论,并由专家评分进行注释,以捕捉离线背景危害的微妙含义。我们的方法在两个不同的任务中排名第二,分别具 - 基于模型和数据的视觉定位学习
SynGround 是一个结合数据驱动学习和知识传递的新框架,通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力,并通过合成图像和文本来提高模型性能,最终在多个数据集上展示出提升。
- 对付时间与内存受限 GPU 服务下的长文本分类的简单转换器技巧
使用 18k 新闻文章,我们研究了基于 Tokenizer 输出长度推荐使用的预训练模型,并对缩短和丰富序列的一些技巧进行了比较。我们找到在使用较少的计算资源的情况下,去除停用词同时保留标点和低频词是最佳的技巧,并能够在保持相同信息的同时获 - AAAI敏捷多源无域适应
通过使用多个预训练模型中的丰富知识来适应地利用知识是大模型时代中的一个重要问题。本研究提出了一种新方法,通过 Bi-ATEN 模块来学习领域内权重和领域间组合权重,以在实例的特殊性和域的一致性之间实现良好平衡,从而实现在无需访问源数据的未标 - 关于外分布泛化评估的调研
机器学习模型在非独立同分布的数据分布下表现出可疑的风险,因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究,将其划分为三个范式:非独立同分布性能测试、非独立同分布性能预测和非独立同分 - 通过最优传输促进联邦学习中的全局和局部协作
通过使用最优传输,我们提出了联邦化的提示协作方法(FedOTP),该方法采用高效的合作提示学习策略,以在每个客户端上捕获多样的类别特征,从而在数据异构性方面优于现有方法。
- 基于扩散的神经网络权重生成
通过数据集条件的预训练权重采样,我们提出了一种高效且适应性强的迁移学习方案,通过学习一组预训练权重的分布来实现神经网络在未见数据集上的自适应采样,从而实现更快的收敛速度和更优的性能。
- 光谱滤波器、暗信号和注意力池
将中间表示投影到词汇表是转换器模型 LLMs 的一种越来越流行的解释工具,我们提出了一种定量扩展方法,并基于将词汇表嵌入和未嵌入矩阵的奇异向量进行分组来定义中间表示的谱滤波器。通过保持注意力下沉,我们发现尽管部分抑制嵌入谱的大小,预训练模型 - RanDumb: 对连续表示学习有效性的简单方法的质疑
RanDumb 通过使用固定的随机变换来嵌入原始像素,并在其之上学习一个简单的线性分类器,以检验连续表示学习的有效性,结果表明,RanDumb 在多个连续学习基准测试中明显优于使用深度网络进行连续学习的表示,这对于有效设计和训练需要高效连续 - 微调预训练模型时应复习哪些预训练样本?
通过轻量级、易于实现的抽样方案 mix-cd,可以有效地识别并优先处理遗忘样本(即 collateral damage),从而减轻预训练知识在微调过程中的遗忘问题,并无需额外的计算成本。
- GPT-4V 中的视觉文化意识探索:一项全面的探究
探索 GPT-4V 在视觉理解方面的能力和限制,着重关注文化方面,通过使用 MaRVL 基准数据集进行详细调查,实验证明 GPT-4V 在识别文化概念方面表现出色,但在低资源语言上仍然存在较弱的性能。
- ACL描述图像:量化和预测视觉语言处理中人类信号的变异性快慢
图像与人类行为之间存在复杂的关系,人类的行为表现如眼动和图像描述时开始描述的时刻等表明了丰富的变化。然而,目前预训练模型的训练中几乎完全忽略了此类变化,因此需要进一步研究。本文利用同时收集的荷兰图像描述和眼动数据进行了研究,探索了视觉 - - Paramanu: 一系列新型高效的印度生成基础语言模型
Gyan AI Paramanu 是一家面向印度语言的全新语言模型系列,由 10 种印度语言(包括 Assamese、Bangla、Hindi、Konkani、Maithili、Marathi、Odia、Sanskrit、Tamil 和 T - BootPIG: 在预训练扩散模型中引入零样本个性化图像生成能力的引导
通过提出的 BootPIG 架构,使用引导图像来指导生成图像的外观,增强了现有的文本到图像生成模型的个性化能力,并通过用户研究证实了 BootPIG 在保持引用对象外观和与文本提示对齐方面的优越性。
- AAAIDGL: 文本 - 视频检索的动态全局 - 局部提示调优
我们提出了一个跨模态的动态提示调整方法,使用全局 - 局部注意机制对视频进行建模,通过仅调整 0.67%的参数,我们的方法在 MSR-VTT,VATEX,LSMDC 和 ActivityNet 数据集上优于或与完全微调方法相当。