El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

Jan, 2021

El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

El Volumen Louder Por Favor: Code-switching in Task-oriented Semantic Parsing

Arash Einolghozati, Abhinav Arora, Lorena Sainz-Maza Lecanda, Anuj Kumar, Sonal Gupta

TL;DR本研究的重点在于 Spanglish，提出了两种数据增强方法解决 CS 样本不足问题，结合少样本的情况，使零样本和全数据的准确度差距缩小了三分之二。

Abstract

Being able to parse code-switched (CS) utterances, such as Spanish+English or Hindi+English, is essential to democratize task-oriented semantic parsing systems for certain locales. In this work, we focus on spanglish

code-switching semantic parsing spanglish cross-lingual models data augmentation

发现论文，激发创造

EntityCS：基于实体为中心的代码切换改进零样本跨语言迁移

本文提出了一种实体级别的语言混合方法（EntityCS），不仅可以避免语法错误，还可以提高四个实体中心下游任务的性能，在 Fact Retrieval 任务上最高可达 10%。

Oct, 2022

从英语到混合语：利用强形态线索的迁移学习

研究提出了一种基于 ELMo 模型和位置感知的关注机制的代码切换模型：CS-ELMo，它通过迁移学习将英语知识转移到不同的代码切换语言对（如尼泊尔语 - 英语，西班牙语 - 英语和印地语 - 英语），并在 NER 和 POS 标记等关键任务上显著优于其他模型。

Sep, 2019

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022

代码交替数据的词性标注

本文研究多种策略用于在两种语言或方言之间进行 linguistic code switching POS 标注的方法，并表明使用两种现有的 POS 标注器的机器学习框架比其他方法实现的性能更好。

Sep, 2019

端到端语音识别中的语言无关代码切换

本文研究提出一种简单而有效的数据增强方法，以在缺乏大量语料库的情况下训练多语言系统，进而提高 Code-Switching 语音的自动识别水平。通过将不同源语言的音频和相应标签连结在一起训练神经网络端到端 (E2E) 模型，实现在跨句子语言转换方面的提高。

Oct, 2022

端到端的语音翻译用于代码切换的语音

本篇研究关注英语 / 西班牙语对话中出现的代码转换，探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现，得出双向端到端模型表现良好的结论。

Apr, 2022

SemEval-2020 任务 9 中的 CS-Embed：代码交换词嵌入在情感分析中的有效性

本文介绍了一种基于 Spanglish 语料库训练的词向量模型，用于混合代码的文本的情感分析，并在 SemEval 2020 任务上取得了较好的效果。

Jun, 2020

面向现实世界的流式语音转换翻译

该研究聚焦于实时交流中的语种转换问题以及第三种语言的翻译，并通过将现有数据集扩展到西班牙语和德语，训练了离线和实时语音翻译模型，并建立了基准结果。

Oct, 2023

CST5: 代码交替语义分析的数据增强

通过数据增强技术 CST5，使用仅约 100 条英语语句种子集，细调 T5 模型用以生成代码切换语句，可通过人工评估和比较基线模型与增强数据模型来证实 CST5 可生成高质量的代码切换数据。实验证明，使用 CST5，可以使用少达原来标注数据的 20 倍，实现相同的语义解析性能。我们同时发布了史上最大的人工注释代码切换语义分析数据集 Hinglish-TOP 和来自 TOPv2 数据集的超过 170K CST5 生成的代码切换语句，人工评估显示两者均具有良好的质量。

Nov, 2022

零样本跨语言语义解析

本文提出一种多任务编码 - 解码模型，通过多语言领域内语料库和英文 - 逻辑形式对标数据，在没有平行语料的情况下完成跨语言的语义解析，模型加强了语言无关编码，显著优于传统基于翻译的算法，有时能与有监督模型的上线媲美。

Apr, 2021