- 超网络中的注意力
使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。
- 超区间:用超网络方法训练连续学习中的权重区间
通过嵌入空间内的区间算术和超网络将连续学习中的遗忘问题纳入控制范围,HyperInterval 模型在多项基准测试中获得显著优于 InterContiNet 的结果,并能够训练出一个适用于所有任务的统一网络。
- 零样本分词器迁移
语言模型与分词器(tokenizer)的绑定限制了其灵活性,本文提出了零 - shot 分词器迁移问题,并通过训练超网络解决了初始化嵌入向量的挑战,进一步缩短了分词序列,从而实现了对语言模型与其分词器的分离。
- 追逐 - 逃避问题的通用追逐者
Grasper 是一种基于图神经网络和超网络的通用追逐 - 逃避问题解决方法,通过高质量的解决方案在各种情景下提供优越性能,实现在真实世界中的实际部署。
- D'OH:仅解码的随机超网络用于隐式神经表示
通过运行时解码器的超网络 (D'OH) 在单个实例信号中初始化深度隐式函数的策略,提供了一种自然的方法来改变神经表示的内存占用,而无需在备选低速率结构空间上进行昂贵的神经架构搜索。
- 多目标可微分神经架构搜索
我们提出了一种新的神经架构搜索算法,通过超网络对设备和多个目标进行参数化和条件化,实现了性能和硬件度量之间的权衡,并在一次搜索中获得多设备上的具有代表性和多样性的架构。在高达 19 个硬件设备和 3 个目标的大量实验证明了方法的有效性和可扩 - 具条件性随机门的情境特征选择
我们研究了上下文特征选择的问题,提出了一种新的条件性 STG 模型,通过建立超网络和预测网络的联合模型,在学习预测函数的同时,根据特定背景和上下文变量选择最具信息量的特征,实现了更好的预测性能和解释性。
- 高效的基于验证的人脸识别
研究通过有效的神经模型 $f$ 进行面部验证的问题。该模型的高效性源于将面部验证问题简化为二进制问题,并且每个用户都有自己的神经网络 $f$。为了在训练集中实现不同个体之间的信息共享,我们并未直接训练 $f$,而是使用超网络 $h$ 生成模 - 面向随时调优的持续预训练语言模型与超网络提示
通过超网络生成领域特定的提示,以解决一直持续预训练方法在新领域性能下降的问题,并促进跨领域的知识迁移。该方法在两个真实数据集上实现了 3.57% 和 3.4% 的改进,证明其有效性。
- 学习为未见图像数据生成 ConvNets 的参数
传统的卷积神经网络依赖于大量的图像数据,并使用迭代优化算法来学习网络参数,这使得训练非常耗时和资源密集。本文提出了一种新的训练范式,将卷积神经网络的参数学习形式化为一种预测任务,通过学习数据集与网络参数之间的超映射关系,来直接预测在训练阶段 - EMNLP基于原型的超适配器用于高效的多任务调优
基于 Protoype 的 HyperAdapter(PHA)是一个建立在 adapter-tuning 和超网络的新框架,它采用实例密集检索器和原型超网络以更有效地生成条件模块,从而在多任务学习和少样本迁移学习中与现有的参数有效微调(PE - HyperLips: 使用高分辨率解码器进行超精细控制的说话脸生成
通过使用 HyperLips,结合超网络和高分辨率解码器,本论文提出了一种解决高保真度脸部视频渲染及确保嘴唇同步的挑战的话语生成框架。
- ICCVHyperCoil-Recon:一种基于超网络的 MRI 重建任务切换网络的自适应线圈配置
通过使用基于超网络的线圈配置任务切换网络,我们的方法能够自适应于各种不同的未知配置,从而通过利用上下文知识和任务特定的权重来改善多线圈 MRI 重建性能。
- PeFLL: 个性化联邦学习的终身学习方法
本文提出了一种名为 PeFLL 的个性化联邦学习方法,通过联合训练嵌入网络和超级网络来输出特定客户端的模型,并证明了其较以往方法在精度和规模等方面都更具优势,还提供了一种新的理论结果以支持该方法的可行性。
- ICLR面向人群大小的平均场博弈策略优化
本文提出了一种名为 PAPO 的方法,通过结合增强和超网络的方式,在同时考虑人口数量和生成策略的前提下,进行不同人口数量游戏的策略优化,并在多个环境中进行了实验和分析,验证了该方法在群体博弈中取得了非常显著的优越性。
- AAAI利用多样本超网络改善 Pareto 前沿学习
提出 PHN-HVI 框架,利用超网络从多样化的权衡偏好生成多个解并最大化这些解定义的超体积指标以提高 Pareto 前沿的质量,在多个 MOO 机器学习任务上实验结果表明,与基线方法相比,该框架显著提高了产生权衡 Pareto 前沿的性能 - ICML在了解神经网络结构之前进行预训练
通过训练较小的超级网络来预测大型神经网络的参数,以达到训练大型神经网络的目的,并提出了利用简单的后处理技术来改善对 ResNet-50 和 ConvNeXt 的调整。
- HyperMAML:用超级网络进行深度模型的少样本适应
提出了 HyperMAML,这是 Model-Agnostic Meta-Learning 的一种新型泛化方法,其训练的更新过程也是模型的一部分,通过可训练的 Hypernetwork 来更新权重,超越了 MAML 并在标准 Few-Sho - 结构化提示调整
本文提出了一种名为 “结构化提示调整” 的简单有效的方法来改进提示调整,并比较了其与标准提示调整的实验结果。该方法通过超级网络生成柔性提示嵌入,可以更灵活地应用于模型设计和单任务、多任务训练环境。实验证明,相比标准提示调整,结构化提示调整在 - EMNLPHyper-X: 一个统一的超网络,用于多任务多语种转移
本文提出 Hyper-X 模型,它将多任务和多语言学习相结合,并通过适应性生成适配器模块的权重,通过学习结合任务和语言特定的知识,实现对未出现的语言和任务 - 语言组合的零样本迁移,并在新语言的少样本情况下始终产生强大的结果。