CodeSwitch-Reddit: 在线讨论论坛中多语言书写话语的探索
本篇论文综述了多语言社区中通用的一种交际现象 —— 语码转换,并且概述了计算机语言处理的方法。同时该文阐述了处理语码转换的语音和自然语言处理在建立智能代理和与多语言社区用户的交互系统中的重要作用,发现语码转换数据和资源的稀缺性,并列出了可利用的各种编码语言对及相应的自然语言处理任务。最后,概述了语码转换在各种语音和自然语言处理应用中的研究,并对该领域的未来方向和问题进行了总结。
Mar, 2019
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
本文展示了针对多种语言的数据的分析在计算语言学界越来越受欢迎。 作者提供代码交换(C-S)的调查,涵盖了语言学文献中的关键问题,并从欧洲和印度等高度多语言区域的文献中着重讨论 C-S 结构和功能模式的概述。 此外,作者还讨论了如何使大规模语言模型失败以代表各种 C-S 类型,以及如何缺乏跨多语言情况和 C-S 类型导致缺乏强大的评估基准以及覆盖 C-S sociolinguistic 方面的端到端系统。
Jan, 2023
本文针对语言学与计算机科学领域的交叉学科问题 —— 代码切换现象进行了系统性的研究综述,归纳了过去几十年的研究进展、任务挑战、学术趋势和未来研究方向等。
Dec, 2022
借助迁移相关的社交媒体平台上的代码混合这一多语言演讲方式,我们提出了 “多语言代码混合文本的整体学习识别”(ELMICT) 的新方法,通过结合多个标记化器输出和预训练语言模型的集成学习技术,ELMICT 在识别各种语言和语境下的代码混合方面表现出高性能 (准确率 F1 大于 0.95),特别是在跨语言零样本条件下 (平均准确率 F1 大于 0.70)。此外,利用 ELMICT 还可以分析与其他主题类别相比,迁移相关的线图上的代码混合的普遍性,从而揭示出移民社区关注的话题。我们的研究结果揭示了移民在社交媒体平台上采用的沟通策略,为开发包容性数字公共服务和对话系统提供了有益的启示。通过解决本研究提出的研究问题,我们有助于理解移民语言多样性,并为建设多元文化社会中建立信任的更有效工具铺平了道路。
Jun, 2024
本研究提出了一种基于多语言变形器语言模型的框架,将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练,来解决多语言情感分析中的跨语言学习问题。实验证明,该框架能有效帮助资源贫乏语言的样本训练。
Oct, 2022
本研究提出了一种跨语言脚本知识共享架构,利用交叉关注和语言脚本的对齐来生成更好的文本表示,实验证明了该方法的有效性,并通过模型可解释性技术解释了语言特定表示之间的知识共享。
Feb, 2024
该研究介绍了一种用于多语言混合情境下机器翻译的方法,它包括多个领域的预训练和微调,和一种句子对齐目标。结果表明,在不同领域之间的切换会改善在较早训练时观察到的领域的性能,但会耗尽对其他领域的性能。采用策略性地分配不同领域数据进行连续训练能够显著提高性能。
Oct, 2022
该研究建立了一个新的跨语言切换数据集,准确地识别出多语言演讲者在日常语言中使用广泛的跨语言切换动机,并证明了该系统适用于新语言配对,使用该注释方案的交叉语言应用性达到了 66%的准确度。
Nov, 2022