El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换
本文提出了一种实体级别的语言混合方法(EntityCS),不仅可以避免语法错误,还可以提高四个实体中心下游任务的性能,在 Fact Retrieval 任务上最高可达 10%。
Oct, 2022
研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型:CS-ELMo,它通过迁移学习将英语知识转移到不同的代码切换语言对(如尼泊尔语 - 英语,西班牙语 - 英语和印地语 - 英语),并在 NER 和 POS 标记等关键任务上显著优于其他模型。
Sep, 2019
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022
本文研究多种策略用于在两种语言或方言之间进行 linguistic code switching POS 标注的方法,并表明使用两种现有的 POS 标注器的机器学习框架比其他方法实现的性能更好。
Sep, 2019
本文研究提出一种简单而有效的数据增强方法,以在缺乏大量语料库的情况下训练多语言系统,进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型,实现在跨句子语言转换方面的提高。
Oct, 2022
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022
本文介绍了一种基于 Spanglish 语料库训练的词向量模型,用于混合代码的文本的情感分析,并在 SemEval 2020 任务上取得了较好的效果。
Jun, 2020
通过数据增强技术 CST5,使用仅约 100 条英语语句种子集,细调 T5 模型用以生成代码切换语句,可通过人工评估和比较基线模型与增强数据模型来证实 CST5 可生成高质量的代码切换数据。实验证明,使用 CST5,可以使用少达原来标注数据的 20 倍,实现相同的语义解析性能。我们同时发布了史上最大的人工注释代码切换语义分析数据集 Hinglish-TOP 和来自 TOPv2 数据集的超过 170K CST5 生成的代码切换语句,人工评估显示两者均具有良好的质量。
Nov, 2022
本文提出一种多任务编码 - 解码模型,通过多语言领域内语料库和英文 - 逻辑形式对标数据,在没有平行语料的情况下完成跨语言的语义解析,模型加强了语言无关编码,显著优于传统基于翻译的算法,有时能与有监督模型的上线媲美。
Apr, 2021