- 特权学生:关于多语言知识蒸馏中初始化价值的研究
我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。
- ACL重新审视语音到文本生成的插值增强
通过插值增强技术在语音识别系统中构建虚拟训练样本能显著提升性能,为资源有限环境下更强健的语音识别系统提供了有希望的途径。
- ACL提升关系抽取的敌对视角
提出了一种针对关系抽取的对抗训练方法,通过序列和标记级的扰动引入独立的扰动词汇表来改进对实体和上下文扰动的搜索,引入了一种概率策略在对抗训练上使上下文的清理标记数更多,实验证明相比于其他对抗训练方法,该方法显著提高了模型的准确性和鲁棒性,同 - 用于词汇简化的 LLM 增强对抗编辑系统
在低资源场景下,我们提出了一种无需平行语料库的新型词汇简化方法,该方法利用对原始句子进行混淆损失和不变性损失的指导来预测词汇编辑,并引入了创新的 LLM 增强损失,将大型语言模型的知识蒸馏到小型词汇简化系统中。大量的实验结果和三个基准 LS - LLM 作为提示器:在任意知识图上进行低资源归纳推理
利用大型语言模型 (LLMs) 并结合图结构提示的方法来增强预训练图神经网络 (GNNs) 的图谱归纳推理能力,通过实验证明该方法在低资源场景下的推理任务中表现出强大的鲁棒性和性能提升.
- 贝尔曼最优步长的流匹配模型直线化
Bellman Optimal Step-size Straightening (BOSS) technique improves flow-matching generative models by optimizing step siz - AAAI多视角解耦学习改进低资源基于提示的关系表示
在低资源情境下,通过多视角关系表示的基于提示的方法(MVRE)能够有效提高关系抽取任务的性能,并在三个基准数据集上达到了最先进的低资源表现。
- 多语种句子级语义搜索使用 Meta-Distillation 学习
在本研究中,我们提出了一种面向低资源场景的对齐方法:MAML-Align,利用基于优化的模型无关元学习器 MAML 进行元蒸馏学习,从面向单语和双语语义搜索的 Teacher 元迁移模型 T-MAML 中提取知识,再将其转移到面向多语言语义 - QS-TTS:基于向量量化的自监督语音表示学习的半监督文本朗读合成
本文提出了一种新颖的半监督文本到语音(TTS)框架 QS-TTS,通过利用更多未标记的语音音频,并借助向量量化的自监督语音表示学习(VQ-S3RL)来改善 TTS 质量,从而降低对有监督数据的需求。
- ACL低资源任务导向的对话系统的多重对称双学习
通过数据挖掘和双重学习,本论文提出的新方法可以显著提升任务导向对话系统在低资源情境下的效果。
- TransCoder: 基于人类技能的统一可迁移代码表示学习
本文介绍了 TransCoder,一种统一的用于代码表示学习的可转移微调策略,能够促进代码相关任务的卓越性能,并鼓励相互强化。
- Few-shot 统一问答:调整模型还是提示?
该研究探讨了在低资源情境下,两种调节策略(模型与提示)实现统一问答模型的潜力,并使用 16 个 QA 数据集进行了详尽的分析。研究表明,提示调节在良好初始化的几轮训练下,可以和模型调节相媲美,并且参数共享会带来更优的表现,提示初始化的简单知 - ACL无需文本的语音转文本反向翻译
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
- ACL利用摘要数据帮助文本简化
本文针对文本简化数据的缺乏问题,提出了使用文本摘要中的数据辅助文本简化的方法(Sum4Simp),并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。
- 使用 Kaldi 进行自动语音识别的奥地利德语会话
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
- 持续对比微调改善低资源关系提取
该论文介绍了一个用于解决低资源场景下关系抽取的方法,该方法基于自监督学习和对比学习,以一致的目标进行预训练和微调,在两个数据集上的实验表明,该方法在使用 1% 的数据时,较基于 PLM 的分类器分别提高了 10.5%和 5.8%的性能水平。
- 基于难度引导的领域自适应在低资源场景下识别生物医学命名实体
本文提出了一种简单而有效的硬度引导域适应框架来提高在低资源情况下学习模型的适应性,并在生物医学数据集上进行实验证明,相较于最近发布的最先进的 MetaNER 模型,我们的模型能够显著提高性能。
- 基于流模型语音转换实现跨语言语音合成以提高发音
该论文介绍了一种端到端的跨语言文字转语音方法,使用基于非注意力 Tacotron 架构的模型,并通过使用条件为说话人身份的归一化流网络,实现 TTS 和语音转换(VC)的可同时进行,该方法可以在低资源情景下获得良好效果。
- 语音中的词边界挖掘作为自然标注的词分割数据
本研究提出了一种在跨领域和低资源情况下提高中文分词性能的方法,即从语音中的停顿中挖掘自然标注数据来训练 CWS 模型,并证明该方法能够显著提高 CWS 的性能。
- EMNLP样式转移作为数据增强的案例研究:命名实体识别
我们在英语中以命名实体识别任务为案例研究,探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练,并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有