- 对齐目标对语码转换翻译的影响
我们提出了一种训练单一机器翻译模型的方法,该模型能够将单语句从一种语言翻译成另一种语言,并能够翻译混合语句到任意一种语言,以应对社交媒体和用户生成内容的崛起带来的语种切换翻译需求。该模型可被视为与人类类似的双语模型,并通过生成合成的混合语数 - ACL共享的词汇项目作为代码交替的触发器
双语者的码切(两种语言混合)为何发生?本文通过使用三种语言对五个大型数据集进行更全面、更细致的研究与探讨,以更加清晰地解释触发假设。实验证明,同时存在于双语者心理词汇库中的词确实能触发码切现象,并且码切的倾向取决于触发词距离码切点的远近,以 - 自我监督的口语语言表示在语音语言分离中的应用
在一个混合语言环境中,使用隐性框架的语音语言编组(LD)作为预处理系统是必要的。通过基于固定分割、基于变化点分割和 E2E 的三种框架,提出了三种实现 LD 的方法。而当使用微软 CS(MSCS)数据集时,使用 E2E 框架的隐性 LD 的 - 基于语音编辑的数据增强技术,提升语音识别中的语码切换和命名实体识别准确度
本文提出了一种基于文本的语音编辑模型的数据增强方法,以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明,相对于音频拼接和神经 TTS 数据增强系统,本文提出的方法显著地提高了识别水平。
- 基于多任务预训练和迁移学习的简单而有效的语言代码切换识别
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的 - ACL未见过语言对的混合语言文本合成
GLOSS 是一种用于语言对的代码交换文本综合的模型,它通过自适应器或额外前缀从代码交换数据中学习代码交换模式,该模型构建在预训练的多语言机器翻译模型(PMMTM)之上,它具有自我训练算法进一步提高 GLOSS 的可靠性,并且对四种语言对进 - 检测混合语言社交媒体文本中的宣传技术
该研究提出检测交替语言的宣传技术是一项具有挑战性的任务,重点关注于低资源语言,提出了一种新的 Fine-Tuning 策略,并在一些实验中进行了对比。
- 多语言大型语言模型还不能切换语言
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研 - ACL通过人工混合数据训练来提升零样本跨语言检索
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词 - CroCoSum: 用于跨语言代码切换总结的评估数据集
本文介绍了 CroCoSum 数据集,这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要,并展示了现有方法在该数据集上的表现,揭示了现有资源的有限普适性。
- 混码语调查:语言技术的语言和社会观点
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。 此外,作者还讨论了如何使大规模语 - 自然语言处理中代码切换研究的几十年进展:趋势和挑战的系统调查
本文针对语言学与计算机科学领域的交叉学科问题 —— 代码切换现象进行了系统性的研究综述,归纳了过去几十年的研究进展、任务挑战、学术趋势和未来研究方向等。
- 语音转录中代码切换动机的自动识别
该研究建立了一个新的跨语言切换数据集,准确地识别出多语言演讲者在日常语言中使用广泛的跨语言切换动机,并证明了该系统适用于新语言配对,使用该注释方案的交叉语言应用性达到了 66%的准确度。
- 针对混合语言自动语音识别的基准评估指标
研究了多语种自动语音识别中的代码切换问题,提出了基于人工判断的评价指标,并通过多种指标的比较得到了最优方法 —— 采用音译和文本规范化,同时发布了第一个阿拉伯语 / 英语对话语境中人类接受度的语料库。
- CST5: 代码交替语义分析的数据增强
通过数据增强技术 CST5,使用仅约 100 条英语语句种子集,细调 T5 模型用以生成代码切换语句,可通过人工评估和比较基线模型与增强数据模型来证实 CST5 可生成高质量的代码切换数据。实验证明,使用 CST5,可以使用少达原来标注数据 - 单语言识别器在混合语音识别中的融合
本文提出了一种单语言识别器融合方法用于语码混合自动语音识别,通过两个阶段实现:语音感知阶段和语言融合阶段,并提出了文本模拟策略简化 BELM 训练过程并减少对语码混合数据的依赖。实验表明,使用开源预训练的 MAM 后,测试集上的混合错误率显 - EMNLPMixMT 2022 的混合语机器翻译领域课程
该研究介绍了一种用于多语言混合情境下机器翻译的方法,它包括多个领域的预训练和微调,和一种句子对齐目标。结果表明,在不同领域之间的切换会改善在较早训练时观察到的领域的性能,但会耗尽对其他领域的性能。采用策略性地分配不同领域数据进行连续训练能够 - 使用预训练多语言嵌入和分词技术的混合语种文本情感分类
本论文提出一种自然语言处理算法,利用混合文本中的语码切换点,用基于大型预训练多语言模型的语义相似性和人工制作的积极和消极词汇集来确定语码切换文本的极性,以实现情感分析,其准确性和 F1 分数较基准模型提高了 11.2% 和 11.64%。
- 句内码位转换语音识别中外语单词的发音生成
本文提出了一种基于数据驱动的方法来解决代码切换语音识别中语音集限制、不同语言音素集和高昂的重建成本等挑战,其核心工作包括音标解码和不同选择策略。我们的实验结果表明,通过我们的方法,混杂的单词层中文英文代码切换识别的混合误差率从 29.15% - EMNLPEntityCS:基于实体为中心的代码切换改进零样本跨语言迁移
本文提出了一种实体级别的语言混合方法(EntityCS),不仅可以避免语法错误,还可以提高四个实体中心下游任务的性能,在 Fact Retrieval 任务上最高可达 10%。