评估基于 Transformer 的多语言文本分类
本文提出了 M2C,这是一种对自然语言处理模型进行语言特征行为测试的框架,并评估了 12 种类型不同的语言在不同特征测试下的表现,结果发现 NLP 模型在英语上的表现较好,但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳,这启示我们需要发展解决这些缺陷的模型。
Jul, 2023
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
本文采用了语言类型相似性的新视角,通过观察不同语言的 transformers 在各自的层次上是否出现了相似性,利用层内加权矩阵来测量相似度,发现句法类型相似性与中间层的权重相似性一致,这一发现证实了通过句法探针 BERT 获得的结果,从而重要地确认了 BERT 在复制传统的语言模型。
May, 2023
本研究提出了 Morph Call,它是针对四种不同形态的印欧语言(英语,法语,德语和俄语)的 46 个探测任务套件,使用诱导句子扰动的检测方法,在神经元,层和表示水平上分析了四个多语言 transformers 的形态句法内容,其中包括其不太被探究的蒸馏版本,并研究了精调 POS 标记对模型知识的影响。研究结果表明,精调可以改善和降低探测性能,并改变形态句法知识在模型中的分布。代码和数据公开,希望填补 transformers 的研究空白。
Apr, 2021
该论文旨在研究和探索使用任务和语言之间的相关性来构建需要较少手动注释数据的自然语言处理模型,通过研究 60 种语言的多种 NLP 任务,该论文表明了联合多任务和多语言建模的潜力,并暗示从这些模型中可以获得语言学洞见。
Sep, 2018
本文研究了神经机器翻译系统在不同语言对之间的翻译表现,发现目标语言与英语越相似,翻译表现越好。另外,还探讨了在基于 Transformer 的模型中提供英语词汇的词性标记对翻译表现的影响。
Dec, 2021
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020