DeBERTinha: 适应巴西葡萄牙语自然语言处理任务的多步骤方法

Sep, 2023

DeBERTinha: 适应巴西葡萄牙语自然语言处理任务的多步骤方法

DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian Portuguese Natural Language Processing Task

Israel Campiotti, Matheus Rodrigues, Yuri Albuquerque, Rafael Azevedo, Alyson Andrade

TL;DR这篇论文介绍了一种将英语预训练的 DebertaV3 XSmall 模型适应于巴西葡萄牙语自然语言处理任务的方法。该方法的关键是多步骤训练过程，以确保模型在葡萄牙语方面得到有效调整。通过对来自 Carolina 和 BrWac 的初始数据集进行预处理，解决了表情符号、HTML 标签和编码等问题。使用 SentencePiece 创建了一个包含 50,000 个令牌的葡萄牙语特定词汇表。模型使用预训练的英语模型的权重初始化大部分网络，通过随机嵌入来减少从头训练的昂贵成本。通过在 DebertaV3 训练的相同格式中使用替换令牌检测任务对模型进行微调。改进后的模型称为 DeBERTinha，在命名实体识别、情感分析和句子相关性确定等下游任务中表现出色，在两个任务中超过 BERTimbau-Large，尽管其参数只有 40M。

Abstract

This paper presents an approach for adapting the debertav3 xsmall model pre-trained in English for brazilian portuguese natural language processi

debertav3 xsmall brazilian portuguese natural language processing multistep training process debertinha

发现论文，激发创造

ViDeBERTa: 一种用于越南语的强大预训练语言模型

本文介绍了 ViDeBERTa，一种新的越南语预训练单语言模型，使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练，取得了在越南特定的自然语言理解任务上比前文献更好的表现，尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数，其表现非常出色，并且现已提供供大家使用。

Jan, 2023

Sabiá：葡萄牙语大语言模型

在这篇论文中，我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型，并在 14 个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明，从单语预训练获得的大多数收益来自于领域特定知识。

Apr, 2023

BERT 用于情感分析：预训练和微调的替代方案

本文进行了一项针对语言模型 BERT 的情感分析任务的实验性研究，重点分析了如何更好地处理 BERT 输出层的不同嵌入以及使用与多语言模型相比更适合巴西葡萄牙语的语言模型的聚合策略和技术，并发现 BERT 在大多数情况下与 TF-IDF 相比取得了更高的预测性能，但 TF-IDF 在预测性能和计算成本之间达到了良好的平衡。

Jan, 2022

用 Transformer Albertina PT-* 推进葡萄牙语的神经编码

为促进葡萄牙语的神经编码和数字化时代技术准备，我们开发了一种名为 Albertina PT-* 的基于 Transformer 的编码器，并在欧洲葡萄牙语和巴西葡萄牙语方言的领域设立了最先进的技术水平，在借鉴 DeBERTa 强大模型的基础上，使用了葡萄牙语数据集进行了预训练。我们免费分发 Albertina PT-PT 和 PT-BR 并采用最宽松的许可证，好让它们能够在便携的硬件设备上运行，以推动对葡萄牙语言技术的研究和创新。

May, 2023

Cabrita：弥合外语鸿沟

通过使用 Portuguese 文本对 3-billion-parameter 模型进行连续预训练，本研究提出了一种名为 Cabrita 的方法，成功解决了性能和高效标记化问题，并以可负担得起的成本实现。

Aug, 2023

ptt5-v2：对 T5 模型在葡萄牙语上的持续预训练的深入研究

本文介绍了继续预训练 T5 模型的研究，特别是在葡萄牙语方面的应用及其对下游任务的影响，通过实验和优化配置获得了令人满意的结果。

Jun, 2024

使用 BERT-CRF 进行葡萄牙语命名实体识别

本研究使用神经网络进行语言表示，探讨在葡语 NER 任务中使用 Portuguese BERT 和 BERT-CRF 结构的转移学习能力，采用基于特征和微调的训练策略，最终实现了比现有最优模型更好的结果。

Sep, 2019

评估语言模型中的语言推广能力：面向巴西葡萄牙语的数据集

本研究提出了一种评估方法，针对用于巴西葡萄牙文的语言模型，通过固定的语言格式，考察语言信息的编码方式，评估不同的语言模型在处理语法结构和多词表达方面的泛化能力，解决了语言模型黑盒且缺乏可解释性的问题。

May, 2023

语言风格翻译的神经网络方法

本文介绍了第一个基于神经网络的机器翻译系统，用于翻译同一语言的标准国别语言种。我们以巴西 - 欧洲葡萄牙语为例，将该方法的性能与短语统计机器翻译系统进行比较。结果显示，在从欧洲葡萄牙语翻译到巴西葡萄牙语时，BLEU 分数提高了 0.9 分，在相反方向翻译时提高了 0.2 分。我们还进行了一项面向巴西葡萄牙语母语者的人工评估实验，结果表明与统计系统相比，人们更喜欢神经系统生成的输出。

Jul, 2018

使用 CamemBERTa 进行高效的法语语言建模

介绍了一种基于 DeBERTaV3 架构和训练目标的法语 DeBERTa 模型 CamemBERTa，通过在各种法语下游任务和数据集上的性能评估，证明了该模型在训练令牌相同的情况下优于大多数基于 BERT 的模型，并且在性能上与 CamemBERT 类似或更好，而只用了后者总输入令牌数量的 30％。同时，也公开了该模型的权重和代码实现，是 DeBERTaV3 模型的第一个公开实现及应用。

Jun, 2023