- 非布尔函数的未知泛化中的最小度偏差
研究无域推广的随机特征模型和 Transformer 在不同领域数据上的泛化能力,证明了小特征情形下的收敛性,并解释了稀疏目标情形与小特征情形的关系,同时展示了不同数据的情况下 RF 模型和 Transformer 学习能力的差异。
- 大型语言模型(LLM)在低资源环境中不同有效微调方法的比较分析
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
- 多通道时序分解网络用于可泛化的基于传感器的活动识别
这篇论文介绍了一种基于传感器的人体活动识别方法,通过多通道时间序列分解网络(MTSDNet)进行信号分解,学习原始信号的低秩表示,提高模型的域外泛化能力,并通过层注意机制聚合分解得到的组件,来实现最终的分类结果。通过对多个公共数据集的广泛评 - 使用自监督技术学习歌手身份表示
我们提出了一个框架,通过在大量的孤立音轨上应用不同的自监督学习技术以及数据增强,训练歌手身份编码器以提取适用于各种歌唱相关任务(如歌声相似性和合成)的表示,我们评估了产生的表示在多个数据集上进行歌手相似性和识别任务,并重点关注领域外泛化,我 - 查询和响应增强不能帮助领域外数学推理泛化
通过问题演化和多样化推理路径的数据增强,我们验证了用于大型语言模型(LLMs)的数学推理的有效性,并深入缩小开源 LLMs 与尖端专有 LLMs 之间的差距。我们创建了一个名为 AugGSM8K 的新数据集,并使用 AugGSM8K 的子集 - COCO-Counterfactuals: 自动构建的图像 - 文本对反事实例子
利用文本到图像扩散模型,介绍了一种自动生成对应对的反事实例子的可扩展框架,创造了基于 MS-COCO 数据集的多模态反事实数据集 COCO-Counterfactuals,并通过人工评估验证了其质量,进一步表明现有的多模态模型受到了反事实图 - Doge Tickets:通过刮刮乐发现领域通用语言模型
本文为了寻求一种领域通用的语言模型,提出从预训练语言模型中鉴别领域无关的参数,实现利用 Doge tickets 方式来提高文本在不同领域上的推广性能优化。通过实验验证表明,将中性参数组成领域通用的语言模型可以得到更好性能。
- ICML黑盒函数的域外泛化认证
本研究提出了一种基于 Hellinger 距离的证明技术,可以用于证明黑盒模型和有界损失函数的分布健壮性和域外泛化。实验证明这种技术在大型神经网络和不同类型的损失函数下具有良好的可扩展性和灵活性。
- 大型双编码器是可推广的检索器
本文通过对双编码器进行多阶段训练,并在保持瓶颈嵌入大小不变的同时扩大了双编码器模型的规模,挑战了一种广为流传的观念,即双编码器在一个域上训练后,往往无法推广到其他域的检索任务中。结果表明,我们的双编码器模型 ——GTR,尤其是在域外泛化方面 - EMNLP不变的语言建模
提出一种使用不变量风险最小化 (invariant risk minimization) 范式,学习不变表示以实现跨多个环境更好的泛化的方法。实验证明它可以减少有结构的噪声、忽略特定的伪相关性并提高域外泛化性能。
- CVPR基于生成模型的语义分割:半监督学习与强领域通用化
本论文提出一个创新的框架,利用半监督学习,生成对图像和标签的联合分布进行判别像素级任务,并通过少量标签图像和大量无标签图像的补充进行训练,该方法在医学图像分割和面部分割领域表现出强大的领域内性能,并展示了从 CT 到 MRI 等领域之外的广 - CVPR基于不确定性指导的模型泛化应用于未知领域
本文关注在单源情况下广义化的最坏情况,提出了基于不确定性评估的输入与标签空间扩充方法,使用贝叶斯元学习框架,在图像分类、语义分割、文本分类和语音识别等范畴取得了优异的表现。
- MM关于校准和域外泛化
本文提出了一种新颖的多域校准机制,该机制使分类器能够在未知领域中实现良好的泛化性能,实验证明通过训练或修改模型实现多域校准可以显著提高模型在未知测试域上的性能。
- ICLR解释反事实增强数据的功效
本文提出了一种基于因果模型的玩具模型,探讨了因果模型、测量噪声、跨领域泛化以及对虚假信号的依赖之间的有趣关系,并以大规模经验研究为基础,比较了用于创建 CAD 的跨度与关注区域和显著性图所选跨度之间的差异,发现对于 CAD,研究中提出的假说 - EMNLPSSMBA:基于流形的自监督数据增强方法,提高域外鲁棒性
使用对数据流形的损坏和重构函数,我们在自然语言领域引入了 SSMBA 数据增强方法,实现了对语料库的数据增强,结果表明在三个任务和九个数据集上,SSMBA 始终优于现有的数据增强方法和基线模型,特别是在机器翻译和情感分析方面,准确率和 BL - ACL不交叉的语法和语义的合作学习
本研究提出了一种递归模型,能够在不需要任何语言结构监督的情况下,通过两个单独的语法和语义模块进行协同训练,达到几乎完美的数学表达式分析精度,并可在不同领域进行泛化,并在自然语言推理和情感分析等多个自然语言任务中表现出竞争性。