- ACL关于量化语言相似性的可重复性研究:在 URIEL 知识库中缺失值的影响
本研究重点研究的是一个广泛使用的语言学知识库 URIEL,在量化语言相似性方面的方法准确性和可复现性存在问题,尤其在处理缺失值和低资源语言方面存在模糊性,这使得数据库的可靠性受到了影响。
- 引入音节分词技术用于低资源语言:以斯瓦希里语为例研究
我们提出了一种音节分词器,并采用实验为中心的方法验证所提出的分词器在斯瓦希里语中的有效性。我们使用 GPT2 进行文本生成实验,结果证明所提出的音节分词器能够有效地表示斯瓦希里语。
- 透明比较多语言自然语言处理数据集中的语言多样性的一种度量
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
- 使用锚点和一系列相关语言的多语言词嵌入:面向低资源语言
通过一种基于语言链的新方法构建多语言词嵌入(MWEs),该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言,从资源丰富的源语言开始,构建 MWEs。我们将半联合双语方法扩展到多种语言,以消除以前工作的主要弱点,即 - 多教师蒸馏用于多语言拼写校正
我们使用多教师蒸馏的方法解决了多语言自然语言处理中的拼写纠正挑战,并通过实验证明这种方法产生了高效的拼写纠正模型,满足部署服务的严格延迟要求。
- EMNLP关于使用大型语言模型进行双语词典归纳
使用最新一代的大型语言模型,我们系统地研究了双语词典诱导(BLI)任务,包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调,并证明了与当前 BLI 方法相比,这种方法在许多语言对上取得了最新的 BLI 成绩。
- EMNLP多语言任务导向对话系统中性能差异的系统研究
多语言自然语言处理中任务导向对话系统性能差异的经验分析和洞察,以及新语言中 ToD 数据收集和系统开发的实用建议。
- 无平行语料的零样本跨语言迁移
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
- ACL自我增强提高零 - shot 跨语言迁移
提出一种称为 SALT 的简单而有效的方法,结合了代码混合和嵌入混合自增强,通过从多语言预训练语言模型中提取跨语言知识并增强其在下游任务中的可转移性,改进了零射击跨语言转移能力,而无需外部数据。
- 通用多语言文档编码器
本研究使用维基百科作为训练数据,通过交叉语言对比的目标来训练具有上下文感知的浅层文档转换器,它可以用于监督和非监督文档级任务。该模型在两个常见的跨语言文档级任务中比基于段落的表示和多语言 Longformer 表现更好,并成功推广到了未见过 - ACLSamanantar: 11 种印度语言最大的公开并行语料库收集
介绍了 Samanantar,这是最大的公共平行语料库集合,包括英语和 11 种印度语言之间的 49.7 百万句子对,同时提取自公共平行语料库和网络,并在 Samanantar 上训练多语种 NMT 模型,从而在公开可用的基准测试上优于现有 - ACL使用上下文和非上下文表示的序列标注:一项多语言评估
本文对多语种命名实体识别和词性标注任务中预训练的 BERT、BPEmb 和 FastText 非上下文子词嵌入进行系统性评估,发现对于跨语言和任务而言,BERT、BPEmb 和字符表示的组合效果最佳,但在资源匮乏的情况下,非上下文子词嵌入的 - 自然语言处理中类型学信息使用调查
本文系统地调查了现有的语言类型学资源及其在自然语言处理中的应用,旨在促进该领域未来的研究和发展。