- ACL以字节衡量跨语言转移
通过实验证实,多语言预训练可以在源语言和目标语言之间进行跨语言迁移,且不仅语言污染和语言近似性是影响迁移的因素,还有一种语言无关的知识组件,可以用于跨语言迁移和知识传递。
- EMNLPUniHD 参加 TSAR-2022 共享任务:词汇简化只需计算能力吗?
使用基于 GPT-3 生成的简单流水线,在少量训练实例的情况下,通过几种不同的提示模板获得了最佳表现,可以实现对英语以外语言的简化,方法适用于西班牙语和葡萄牙语,并讨论了提示的特点和未来工作的影响。
- 有监督的声学嵌入及其在不同语言之间的可转移性
本文研究了使用自监督预训练技术来提高语音识别的准确性,发现在监督学习框架中,利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法,并且这种方法可实现跨语言迁移。
- 通过本地结构探针检测对多语言模型不可理解的语言
本研究旨在通过不需要标注数据的方法,检测当前哪些语言无法受益于跨语言模型,我们基于构建一个跨语言句子相似度任务,对 350 个主要的低资源语言进行了实证评估。
- 考虑语言迁移效应的外来词普通话语音识别发音建模
研究了语言转移对语音识别中自动识别外来词的影响,提出了一套将英语单词转换为汉语拼音的词汇规则,从而实现了增强语音识别词汇表的功能,最终提高了汉英混合语音的 ASR 性能。
- EMNLP低资源语言种的高效测试时间适配器集成
本文提出了使用现有语言适配器组合来改善跨语言迁移效果的方法,该方法名为 “Entropy Minimized Ensemble of Adapters (EMEA)”,在实验中取得了显著的实体识别和词性标注提高。
- ACL面向目标的零资源命名实体识别微调
本文提出了一个以目标为导向的微调框架,从特定领域、语言和任务等三个方面利用各种数据来解决零资源命名实体识别中的数据稀缺问题,并在六个基准测试中实现了新的最先进性能表现。
- 重审零样本跨语言转移中英语的首要地位
本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究,发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习,即使训练集是自动从英语翻译而来。同时,该结论对于多语言零样本系统有着重要影响,并且应该指导未来的基准设计。
- COLING基于源批判的强化学习,用于将口语语言理解迁移到新语言
本研究旨在通过使用特定领域的平行语料库进行语言转移,利用增强学习方法进一步微调翻译器,从而在中英语言转移方面取得显著的成功,提高了相对于传统方法的领域分类准确率 22%,槽提取 F1 得分 71% 以上。
- 跨语言命名实体识别的共享网络参数
本文中,我们提出了一种基于神经网络的模型,它允许在两种语言之间共享解码器以及单词和字符级别参数,从而使得资源丰富的语言可以帮助资源匮乏的语言,特别是在一个语言($L_1$)中只有少量标注语料库而在另一种语言($L_2$)中有大量标注语料库的