基于经验高斯先验的跨语言迁移学习
在跨语言情感分析领域,公共的小型多语言语言模型在零样本跨语言性能上优于大型通用语言模型,但在少样本跨语言设置中,公共的大型通用语言模型展现出更高的适应潜力。
Jun, 2024
传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法,名为 guided dropout。通过实证评估表明,相比于标准基线,在数据稀缺的情况下,我们的正则化方法始终能够得到更好的性能。
Jun, 2024
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词汇意义。第三,我们引入了一种基于子词二元模型的高效分割算法,可使用词汇感知分割方法进行初始化,以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法,并在两个下游任务上测试了其性能:词性标注和机器翻译。我们的实验证明,在各语言上,通过在词素边界上评估的分割精度和改进的 Rényi 效率方面,该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大,但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。
Jun, 2024
我们提出了 SRFUND,这是一个层次结构化的多任务表单理解基准数据集,它在原始的 FUNSD 和 XFUND 数据集基础上提供了细化的注释,涵盖了五个任务:(1)将单词合并为文本行,(2)将文本行合并为实体,(3)实体分类,(4)项目表定位,以及(5)基于实体的完整文档层次结构恢复。
Jun, 2024
儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示,对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果,相较于基准线而言,两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外,使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。
Jun, 2024
通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明了标准的 IW 规范化技术的有效性。
Jun, 2024
建立一个可靠的跨语言视觉问答系统是一个具有挑战性的问题,主要原因是在训练过程中缺乏丰富的样本。为了解决这一问题,最近的研究采用了机器翻译系统进行跨语言视觉问答任务。然而,我们的分析发现翻译文本具有独特的特征,与人工编写的文本不同,被称为翻译人工痕迹。我们发现这些痕迹可以对模型产生显著影响,通过在不同的模型、语言和翻译过程上进行广泛实验证实了这一点。鉴于此,我们提出了一种简单的数据增强策略,可以缓解翻译人工痕迹的不利影响。
Jun, 2024
我们提出了一种新的谱正则化方法,该方法鼓励下游分类任务中特征表示的黑盒敌对鲁棒性,实证结果表明,该方法在提高测试准确性和鲁棒性方面比以前提出的方法更加有效,并且改善了利用自监督训练或从其他分类任务中传递学习到的表示学习分类器的敌对鲁棒性。总体而言,我们的工作开始揭示表示结构如何影响敌对鲁棒性。
May, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024