- 基于 SURE 基准的参数高效迁移学习方法在语音理解领域的评估
本文介绍了一种针对语音处理任务的参数高效学习算法 —— 适配器(adapters)以及一种新的名为 ConvAdapter 的适配器,它利用一维卷积来代替全量微调。实验证明,ConvAdapter 在某些任务中的表现优于标准适配器,且与前缀 - AAAI面向实体无关的表示学习,用于参数高效的知识图谱嵌入
提出了一种实体无关表示学习方法,以解决知识图谱嵌入中带来的低效参数存储成本问题。该方法使用较少的参数,在链接预测任务中表现出更好的性能。
- 差分蕴涵用于参数高效的少样本学习
本论文提出了一种新的技术,通过采用中间训练和可区分化优化的方式,在限制模型参数时实现 few-shot 学习的参数效率。作者通过实验量化了参数效率和性能在 few-shot 领域的权衡,并提出了一个简单的模型无关方法。
- 更好的多语言表示学习:超越以英语为中心的双语语料
本文介绍了一种构建多语言表示模型的方法,该方法不仅可以与现有的最先进的模型竞争,而且还更加参数高效,从而促进了资源受限情况和实际应用的更好采用。
- EMNLPXPrompt:探索提示调整的极端
本文提出了一种名为 XPrompt 的新型 Prompt tuning 模型,采用分层结构裁剪方法消除负面的 prompt token 从而优化下游任务的表现,在 SuperGLUE 测试中,在小型模型中能够接近或优于微调方法的性能水平。
- EMNLPXDoc: 跨格式文档理解的统一预训练
提出了一种名为 XDoc 的文档理解模型,该模型采用了预训练和微调框架用于处理不同格式的文档,该模型具有参数效率和适应性层等优点。
- COLINGCOLO:一种基于对比学习的单阶段摘要重新排序框架
本文提出了一种基于对比学习的重新排序框架 COLO,它可以直接根据摘要级别的分数生成摘要,从而提高 CNN/DailyMail 基准的提取和抽象一阶段系统的结果,并保留参数效率和推断效率。
- AdaCat: 自适应离散化用于自回归模型
通过提出一种自适应的分类离散化方法,优化自回归生成模型中的连续数据分布,提高参数效率,并在现实世界的数据、图像、音频和轨迹中改善密度估计,同时改进了基于模型的离线强化学习中的规划。
- STN: 通过结构感知训练和自适应压缩实现可扩展的张量网络
本文提出了适用于任意网络架构的可扩展张量网络(STN),通过一种数据驱动的方法动态和自适应地调整模型大小和分解结构,从而达到更高的压缩性能和灵活性,综合实验结果表明其在参数效率方面表现优异。
- 知识图谱嵌入的克罗内克分解
本文基于 Kronecker 分解技术提出了一种方法来减少知识图嵌入模型中的参数数量,拥有更好的参数效率、特征重用和对输入噪声的鲁棒性,在基准数据集上进行了一系列实验表明其有效性。
- ACL自适应组成模块的连续序列生成
本研究提出了带自适应组合模块的连续序列生成方法,以在具有相似任务的情况下保证知识共享,并通过伪经验重播促进共享模块之间的知识转移,实验结果表明,相对于基线方法,该方法在性能和参数效率上表现更好。
- ICMLHyperPrompt:基于提示的 Transformer 任务调节
HyperPrompt 是一种基于 HyperNetwork 的结构,通过生成超级提示来为自注意力模型提供任务条件,使得在任务之间可以灵活地共享信息和实现参数和计算效率,从而在 GLUE 和 SuperGLUE 的自然语言理解基准测试中表现 - 探索域自适应训练对于大规模语言模型去毒化的极限
本文系统性地研究了领域自适应训练方法,利用语言模型的生成能力产生无毒数据集达到更高的数据效率,通过实验证明了自生成方法可以有效降低大型语言模型毒性,即使使用小得多的训练数据,也可以在自动和人类评估中优于现有的基线方法,并且提出了适配器层训练 - 神经残余流场用于高效视频表征
通过将视频运动信息与颜色信号分离,利用降低视频信号的时空冗余性的方式,提出了一种用于表示和压缩视频的神经场结构,该模型具有更高的参数效率和更好的实验效果。
- ICLR稀疏激活 Transformer 的随机专家优化
本文提出了一种基于随机激活专家的框架 THOR,在一致性正则化损失约束下训练不同的专家,该框架在各种设置下比 Transformer 和 Mixture-of-Experts 更加参数有效,如多语言翻译中比 Switch Transform - 关系图卷积网络:深入探讨
本文介绍了关系图卷积网络 (RGCN) 的复现,通过使用基准知识图谱数据集上的节点分类和链接预测任务,验证了 RGCN 的正确性。研究人员还介绍了两个更加参数有效的 RGCN 配置。
- FitVid: 像素级视频预测中的过拟合
本文提出一个名为 FitVid 的视频预测模型,通过提高参数效率和使用图像增强技术来缓解过拟合现象,从而在四个不同的视频预测基准测试中表现出优秀的质量。
- 用迭代随机化方法剪枝随机初始化的神经网络
通过随机化权重值的迭代对神经网络进行修剪可以提高参数效率且不影响优化性能。
- ACL级联碰撞关注
通过将多头注意力机制重新制定为潜在变量模型,提出了层次变分分布结构的串级头碰撞注意力(CODA)模型,该模型能够显式地建模不同注意头之间的交互,从而提高模型参数的使用效率,实验结果表明,CODA 模型在语言模型和机器翻译等任务上相比 tra - ECCVPiggyback GAN:基于图像的生成任务的高效生命周期学习
本研究提出了一个参数高效的框架,Piggyback GAN,通过将上一个任务训练的模型的滤波器分解来学习当前任务,解决了现代深度神经网络的大规模遗忘问题,并在不同领域的各种图像生成任务上进行了验证。