CodeSwitch-Reddit: 在线讨论论坛中多语言书写话语的探索

EMNLPAug, 2019

CodeSwitch-Reddit: 在线讨论论坛中多语言书写话语的探索

CodeSwitch-Reddit: Exploration of Written Multilingual Discourse in Online Discussion Forums

Ella Rabinovich, Masih Sultani, Suzanne Stevenson

TL;DR该研究介绍了一种新的、大规模和多样化的数据集，这个数据集是从 Reddit 的多个双语社区的主题帖中精选而来的书面混合语言产品，探讨了至今主要在口语语言背景下讨论的内容和风格、发言者的熟练程度等问题是否也能适用于书面语混合，该数据集可以进一步促进一系列研究和实际活动。

Abstract

In contrast to many decades of research on oral code-switching, the study of written multilingual productions has only recently enjoyed a surge of interest. Many open questions remain regarding the →

written multilingual productions code-switching sociolinguistic reddit dataset

发现论文，激发创造

码 - 语混合话语与语言处理的概述

本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换，并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用，发现语码转换数据和资源的稀缺性，并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后，概述了语码转换在各种语音和自然语言处理应用中的研究，并对该领域的未来方向和问题进行了总结。

Mar, 2019

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

混码语调查：语言技术的语言和社会观点

本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。作者提供代码交换（C-S）的调查，涵盖了语言学文献中的关键问题，并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。此外，作者还讨论了如何使大规模语言模型失败以代表各种 C-S 类型，以及如何缺乏跨多语言情况和 C-S 类型导致缺乏强大的评估基准以及覆盖 C-S sociolinguistic 方面的端到端系统。

Jan, 2023

自然语言处理中代码切换研究的几十年进展：趋势和挑战的系统调查

本文针对语言学与计算机科学领域的交叉学科问题 —— 代码切换现象进行了系统性的研究综述，归纳了过去几十年的研究进展、任务挑战、学术趋势和未来研究方向等。

Dec, 2022

解读移民话语中的混合语 Code-Mixing 模式：Reddit 线上对话的自动检测与分析

借助迁移相关的社交媒体平台上的代码混合这一多语言演讲方式，我们提出了 “多语言代码混合文本的整体学习识别”(ELMICT) 的新方法，通过结合多个标记化器输出和预训练语言模型的集成学习技术，ELMICT 在识别各种语言和语境下的代码混合方面表现出高性能 (准确率 F1 大于 0.95)，特别是在跨语言零样本条件下 (平均准确率 F1 大于 0.70)。此外，利用 ELMICT 还可以分析与其他主题类别相比，迁移相关的线图上的代码混合的普遍性，从而揭示出移民社区关注的话题。我们的研究结果揭示了移民在社交媒体平台上采用的沟通策略，为开发包容性数字公共服务和对话系统提供了有益的启示。通过解决本研究提出的研究问题，我们有助于理解移民语言多样性，并为建设多元文化社会中建立信任的更有效工具铺平了道路。

Jun, 2024

混合语文本数据的渐进情感分析

本研究提出了一种基于多语言变形器语言模型的框架，将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练，来解决多语言情感分析中的跨语言学习问题。实验证明，该框架能有效帮助资源贫乏语言的样本训练。

Oct, 2022

跨语言脚本转化与对齐：用于混合编码数据的情感检测

本研究提出了一种跨语言脚本知识共享架构，利用交叉关注和语言脚本的对齐来生成更好的文本表示，实验证明了该方法的有效性，并通过模型可解释性技术解释了语言特定表示之间的知识共享。

Feb, 2024

MixMT 2022 的混合语机器翻译领域课程

该研究介绍了一种用于多语言混合情境下机器翻译的方法，它包括多个领域的预训练和微调，和一种句子对齐目标。结果表明，在不同领域之间的切换会改善在较早训练时观察到的领域的性能，但会耗尽对其他领域的性能。采用策略性地分配不同领域数据进行连续训练能够显著提高性能。

Oct, 2022

语音转录中代码切换动机的自动识别

该研究建立了一个新的跨语言切换数据集，准确地识别出多语言演讲者在日常语言中使用广泛的跨语言切换动机，并证明了该系统适用于新语言配对，使用该注释方案的交叉语言应用性达到了 66％的准确度。

Nov, 2022

代码交替的计算处理挑战

本文探讨了在非规范化的混合两种或更多语言的多语言数据上进行自然语言处理的挑战，重点关注语言识别、依存分析和机器翻译等 NLP 任务的关键问题。

Oct, 2016