- 通过慢速级联学习实现富表达和可推广的大规模模型的低秩适应
LoRA Slow Cascade Learning (LoRASC) is an innovative technique that enhances the expressiveness and generalization capab - 大型语言模型是可解释学习者
大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。
- Transformer 学习 HMM 的局限性
该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明,Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外,研究还揭示了 Trans - 神经极化:通过扩展等变网络推导出分子的电子密度
最近的 SO (3) 等变模型以分子作为一组固定在三维空间中的单原子的形式进行嵌入,类似于球杆观点。然而,这种观点虽然提供了原子排列的简洁视图,但不能表示周围的电子密度,其极化效应可能被低估。为了克服这个限制,我们提出了 “神经极化”,一种 - ICML随机屏蔽找到参数高效微调的优胜票
通过使用随机遮挡(Random Masking)方法,本研究探讨了参数高效微调(PEFT)的极限,展示了随机遮挡方法的出人意料的有效性,并证明了遮挡引导的损失平面更平缓、解决方案更分散,这使得可以使用更大的学习率来匹配标准 PEFT 算法在 - StoryTTS:一个具有丰富文本表达注释的高度表现力的文本到语音数据集
我们介绍了 StoryTTS,一种包含丰富的声学和文本表现力的 ETTS 数据集,通过系统和全面的标注框架定义了五个维度的文本表现力,并使用大型语言模型进行批量注释,结果是包含 61 小时的连续且高度抑扬顿挫的语音,带有准确的文本转录和丰富 - PQDynamicISP:面向追求感知质量的任意图像传感器的动态控制图像信号处理器
通过动态控制,我们提出了一种由简单的传统 ISP 功能组成的轻量级 ISP,可以在各种环境和甚至局部动态地控制参数,达到了与基于 DNN 的 ISP 相媲美的最先进的准确性,并且比 DNN-based ISPs 更轻巧。此外,我们的方法可以 - MoPE: 通过混合提示专家实现参数高效且可扩展的多模态融合
通过分解原始提示,基于混合提示专家(MoPE)技术实现了适应性捕获数据集级别和实例级别特征,并借助多模态配对先验在每个实例上选择最有效的提示语,从而提高了多模态融合的表达能力和可扩展性。在专家路由方面引入了正则化项,导致不同专家专注于不同概 - 通过故事讲述栩栩如生的故事:一个富有表达力和流畅的多模式讲故事者
基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法 LLaMS 通过充分利用 LLM 中的常识知识,首先采用序列数据自动增强策略来增强实际内容表达,并利用文本推理架构进行表达性故事生成和预测;其次,我们提出故事插图生成的 SQ - ICLR思维链串联变压器解决本质上串行的问题
通过表达能力的角度,本文从理论上解释了串行思维链(CoT)对仅解码器的变压器的增强作用,通过对中间步骤(即 CoT)的生成模型进行指导,可以显著提高大型语言模型在算术和符号推理任务上的准确性。
- ICLR超越 Weisfeiler-Lehman: 一个用于 GNN 表达能力的定量框架
基于同态表示的图神经网络(Graph Neural Networks)的表达能力及其在子图计数等实际需求方面的量化研究。
- 校准和提升多关系和时间图上 GNN 的逻辑表达能力
在这篇论文中,我们研究了图神经网络的逻辑表达能力,特别是其作为多关系图上的布尔节点分类器的能力,并提出了一种简单的图转换技术来增强图神经网络的表达能力。我们还将研究扩展到了时间图上,并通过实验证明了我们的发现。
- 基于自蒸馏的微调方法拓展数据有限的扩散模型的表达能力
我们提出了自我蒸馏 Fine-Tuning 扩散模型(SDFT),通过利用在大型源数据集上预训练的扩散模型的多样特征,从源模型中提取出更一般的特征(形状、颜色等),少量的领域特定特征(纹理、细节等),以在目标数据集上进行知识传递且不干扰训练 - 网络中输入分布和线性区域之间相互作用的演变
对于基于 ReLU 的深度神经网络,我们通过计算线性凸区域的数量,证明了任何一维输入都需要至少一定数量的神经元来表达。我们还发现对于相同的网络,复杂的输入会限制其表达线性区域的能力。此外,我们揭示了 ReLU 网络在训练过程中决策边界的迭代 - 格雷码注意力头是强大而高效的视觉学习者
通过引入多个头分类器,采用基于注意力的聚合和关注类令牌的格拉姆矩阵,提升架构的表达性能,从而在各种任务中实现无与伦比的性能。
- HAvatar: 基于面部模型调节的高保真头部化身
通过融合传统模型的先验信息和新的神经辐射场模型,我们提出了一种新的混合显示 - 隐式 3D 表示方法,用于建模可动画化的 3D 人头头像。我们的方法实现了高分辨率、逼真且视角一致的动态头部外观综合,达到了与以前方法相比的最先进性能。
- CLIP 多模态哈希:一个新的基准 CLIPMH
当前的多模态方法存在检索精度低的问题,本文提出了一种新的基准 CLIP 多模态哈希方法,通过使用 CLIP 模型提取文本和图像特征,并将它们融合生成哈希编码,该方法显著提高了多模态哈希方法的检索性能。
- 图神经网络在推荐领域的表现力如何?
本文提供了关于图神经网络在推荐系统中表达能力的全面理论分析,考虑了图同构、节点自同构和拓扑接近度等三个层面的表达能力指标,并引入了拓扑接近度指标来评估图神经网络对节点之间结构距离的捕捉能力,从而更好地满足推荐任务的目标。为了验证这一新指标对 - 扁平 Transformer:使用专注线性注意力的视觉 Transformer
我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续 - ICML期望连通图表示与同态
本文研究了新颖的随机图嵌入算法,能在预期的多项式时间内区分所有非同构图,并基于 Lovasz 的同态计数理论实现对任意图的函数逼近,结果在多个基准图学习任务上表现竞争力。