- 推动专家混合模型的极限:非常参数高效的指令调优 MoE
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
- 无范例的类渐进学习初始训练策略分析
类渐进学习是从数据流中构建分类模型的目标。本文通过统计分析框架量化各个因素对增量性能的相对贡献,发现初始训练策略是影响平均增量准确性的主要因素,而 CIL 算法的选择对防止遗忘更为重要。基于此分析,我们提出了选择相应初始训练策略的实际建议, - 神经网络架构学习傅里叶变换、信号处理和更多
通过在 AI 和神经架构的最新进展中采用傅里叶变换,本研究报告将探索和回答有关此过程的基本问题。进一步地,我们展示了如何通过学习从头开始的神经架构,为音频信号处理应用程序学习这些内核,并发现神经架构不仅可以学习正弦内核形状,还可以发现各种令 - ICCV基于空间变换器的单视角三维重建中的隐性学习
利用 LIST 神经网络架构,借助局部和全局图像特征,精确地从单张图像中重建 3D 物体的几何和拓扑结构,既可以预测目标物体的粗糙形状,又能通过隐式预测器准确地预测任意点与目标表面之间的有向距离,模型在重建合成和真实世界图像中的 3D 物体 - Quarl: 基于学习的量子电路优化器
Quarl 是一种基于学习的量子电路优化器,通过将行动空间分解为两部分并利用图神经网络在状态表示中进行引导,解决了量子电路优化中的行动空间和状态表示的挑战,它在几乎所有基准电路上都明显优于现有的电路优化器,能够学习执行复杂的非局部电路优化。
- 神经网络架构检索
提出了一种新的算法,用于检索与待设计神经结构相似的已存在的神经结构,并引入分层对比学习实现准确定义,它在人工设计和合成神经结构的评价中表现出卓越性能,并建立了包含 12000 个真实世界网络结构及其嵌入的数据集。
- Conformer LLMs -- 卷积增强的大型语言模型
本文将卷积层和 Transformer 这两个流行的神经网络块与大型语言模型(LLMs)进行整合。通过使用因果卷积滤波器和 Transformer 将潜在表示的局部和全局依赖相结合,取得了显著的性能提升。这项工作展示了一种强大的语音架构,可 - Point2Point: 一种在希尔伯特排序点云上高效进行深度学习的框架,并在时空占据预测中应用
本文提出一种利用希尔伯特空间填充曲线作为本地保留的一维排序的方法表示点云,并引入 Point2Point 神经架构,能够有效地学习排序后的点云并在点云分割和生成任务上展示出有竞争力的性能,最后展示了在点云的时空占用预测上,Point2Poi - U-Net 设计与分析的统一框架
本文提出了一个设计和分析通用 U-Net 体系结构的框架,介绍了它们在编码器和解码器中的作用,通过预处理与 ResNets 的相关性及其高分辨率缩放极限,为 PDE 模型、图像分割和扩散模型提供了更好的性能,并提出设计新的 U-Net 架构 - ACL背包语言模型
Backpacks 是一种新的神经架构,它将强大的建模性能与可解释性和控制界面相结合。 Backpacks 通过学习每个词语的多个非上下文意义向量,将一个序列中的词表示为上下文相关的非负线性组合。我们还介绍了一些在感知向量上进行控制的简单算 - ICLR面向未知数据集的蒸馏感知神经架构搜索元预测模型
提出了一种预测学生模型在教师模型下蒸馏的表现的元学习模型(DaSS),它能够推广到多个未见过的数据集以实现 DaNAS 任务的更高效性和准确性。
- 自我背叛:基于单声道到立体声转换的小说音频 DeepFake 检测模型
提出了一种新的 ADD 模型 ——M2S-ADD,目的是通过从单声道信号到立体声信号的转换,探索深假音频中的真实性线索,进而有效地揭示假音频中的人工痕迹,提高 ADD 性能。
- IJCAI可扩展的深度学习与逻辑推理的耦合
本文介绍了一种可扩展的神经网络结构和损失函数,专门用于学习离散图形模型所表达的 NP-hard 解决问题的约束和标准,并在实践中证明其能够高效地从自然输入中学习如何解决 NP-hard 推理问题,具有数据效率,可解释性和后验控制。
- RoSI:从少量关节图像中恢复三维形状内部
该研究提出了一种 RoSI 学习框架,通过多视角和多关节图像从外部恢复 3D 模型的内部结构,并在实验中证实了该方法的泛化能力。
- 自动梯度下降:无超参数的深度学习
本文提出了一个新的框架来得出能够自动、无需超参数训练全连接和卷积神经网络的一阶优化器:自动梯度下降。该理论为下一代结构相关的优化器提供了严谨的理论基础。
- ICLRAutoTransfer: 自动机器学习的知识迁移 —— 应用于图神经网络
AutoTransfer: 提出了一种 AutoML 的解决方案,它通过将先前的架构设计知识转移到新的任务,从而提高搜索效率,并在图机器学习领域的六个数据集上进行评估。
- 基于情感丰富嵌入和基于 Transformer 的神经语言模型的读者情感检测
本文提出了一个名为 REDAffectiveLM 的深度学习模型的新颖方法,以从短文档中检测读者的情感,通过使用基于 transformer 预训练语言模型的上下文特定表示和情感丰富的表示形式,以及双向 LSTM + 注意。在三个数据集上进 - 强化学习中 Transformer 的调研
本文系统回顾了使用 Transformer 在强化学习领域的动机和进展,提供了现有工作的分类,讨论了每个子领域,并总结了未来的发展前景。
- 学习图搜索启发式
PHIL (Path Heuristic with Imitation Learning) is a neural architecture and training algorithm that uses imitation learni - AAAIGENNAPE: 通向广义神经网络架构性能估计的方法
本文提出了 GENNAPE,一种基于预训练的神经架构性能估计器,通过网络表示、对比预训练和基于模糊聚类的预测器集合相结合,旨在对完全未知的神经网络进行泛化。实验表明,GENNAPE 在 NAS-Bench-101 上预训练可以在 5 个不同