评估基于 Transformer 的多语言文本分类

Apr, 2020

评估基于 Transformer 的多语言文本分类

Evaluating Transformer-Based Multilingual Text Classification

Sophie Groenwold, Samhita Honnavalli, Lily Ou, Aesha Parekh, Sharon Levy...

TL;DR研究探讨了 NLP 工具在不同语言的应用情况以及针对语言结构差异进行的分析，指出哪些变量最影响语言建模的效果，通过计算词序和形态相似性指数等方法进行实证研究，最后通过多分类文本分类实验验证了研究结论。

Abstract

As nlp tools become ubiquitous in today's technological landscape, they are increasingly applied to languages with a variety of typological structures. However, nlp research does not focus primarily on

nlp typological differences language modeling word order typology morphological typology

发现论文，激发创造

使用类型学属性增强自然语言处理模型的跨语言行为测试

本文提出了 M2C，这是一种对自然语言处理模型进行语言特征行为测试的框架，并评估了 12 种类型不同的语言在不同特征测试下的表现，结果发现 NLP 模型在英语上的表现较好，但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳，这启示我们需要发展解决这些缺陷的模型。

Jul, 2023

语言变异和语言规律的建模：关于自然语言处理中的语言类型学调查

对语言类型学在自然语言处理中的应用进行了调研，发现目前的语言类型数据库在系统性能提升方面存在局限性，现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。

Jul, 2018

通过语言类型分类探究单语 BERT 的语言学特征

本文采用了语言类型相似性的新视角，通过观察不同语言的 transformers 在各自的层次上是否出现了相似性，利用层内加权矩阵来测量相似度，发现句法类型相似性与中间层的权重相似性一致，这一发现证实了通过句法探针 BERT 获得的结果，从而重要地确认了 BERT 在复制传统的语言模型。

May, 2023

为类型预测学习语言表示

利用 1017 种语言构建一个神经机器翻译系统，预测存在于语分类数据库中缺失的语言特征，实验表明该方法不仅能推测句法特征，还能推测音位、音库特征。

Jul, 2017

Morph Call: 探究多语种 Transformer 的形态句法内容

本研究提出了 Morph Call，它是针对四种不同形态的印欧语言（英语，法语，德语和俄语）的 46 个探测任务套件，使用诱导句子扰动的检测方法，在神经元，层和表示水平上分析了四个多语言 transformers 的形态句法内容，其中包括其不太被探究的蒸馏版本，并研究了精调 POS 标记对模型知识的影响。研究结果表明，精调可以改善和降低探测性能，并改变形态句法知识在模型中的分布。代码和数据公开，希望填补 transformers 的研究空白。

Apr, 2021

多任务和多语言模型用于词法分析

该论文旨在研究和探索使用任务和语言之间的相关性来构建需要较少手动注释数据的自然语言处理模型，通过研究 60 种语言的多种 NLP 任务，该论文表明了联合多任务和多语言建模的潜力，并暗示从这些模型中可以获得语言学洞见。

Sep, 2018

词汇语义如何影响翻译？一项实证研究

本文研究了神经机器翻译系统在不同语言对之间的翻译表现，发现目标语言与英语越相似，翻译表现越好。另外，还探讨了在基于 Transformer 的模型中提供英语词汇的词性标记对翻译表现的影响。

Dec, 2021

自然语言处理中类型学信息使用调查

本文系统地调查了现有的语言类型学资源及其在自然语言处理中的应用，旨在促进该领域未来的研究和发展。

Oct, 2016

基于形态学建模的低资源神经机器翻译

在低资源环境中，提出了一种用于模拟复杂形态的框架解决方案，该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器，提高了机器翻译性能，并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术，提高了在低资源环境中的翻译性能，最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能，希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。

Apr, 2024

利用形态信息增强深度神经网络

通过将词汇学特征添加到 LSTM 和 BERT 模型中，我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现，结果显示，根据所添加的特征的质量和任务的不同，这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好，而不太适用于 CF 任务；对于 BERT，只有在高质量特征时才会对 DP 表现有所改善，而且相对于强大的多语言 BERT 模型，语言特异性 BERT 变体的改善程度较小。

Nov, 2020