PhoGPT：越南语生成预训练

Nov, 2023

PhoGPT: Generative Pre-training for Vietnamese

Dat Quoc Nguyen, Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen, Nhung Nguyen...

TL;DR我们为越南语开源了一种最先进的 7.5B 参数生成模型系列 PhoGPT，包括基础的预训练单语模型 PhoGPT-7B5 及其指令遵循变体 PhoGPT-7B5-Instruct。此外，通过人工评估实验，我们还展示了其比以前的开源模型表现出更高的性能。

Abstract

We open-source a state-of-the-art 7.5B-parameter generative model series named phogpt for →

open-source generative model phogpt vietnamese performance

发现论文，激发创造

PhoBERT：越南语预训练语言模型

PhoBERT 是第一个用于越南语的公开大规模单语言模型，实验结果表明，PhoBERT 在多个越南特定的自然语言处理任务中表现优异，胜过最近最好的预训练多语种模型 XLM-R，我们发布了 PhoBERT 以促进未来的越南语自然语言处理研究和下游应用。

Mar, 2020

BARTpho: 为越南语预训练的序列到序列模型

本文介绍了两个版本的 BARTpho 模型：BARTpho-syllable 和 BARTpho-word，这两个模型是首个由越南语言训练的公共大规模单语序列到序列模型，使用 BART 的预训练机制，适用于生成式自然语言处理任务。在越南文本摘要等下游任务中，BARTpho 比强基线 mBART 表现更好，进一步在越南大写字母和标点符号恢复任务中表现更为有效。

Sep, 2021

PhoNLP：越南词性标注、命名实体识别和依存句法分析的联合多任务学习模型

我们首次提出了名为 PhoNLP 的多任务学习模型，可用于联合越南文词性标注、命名实体识别和依存分析，并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包，可直接应用于其他语言的研究和应用中。

Jan, 2021

ViDeBERTa: 一种用于越南语的强大预训练语言模型

本文介绍了 ViDeBERTa，一种新的越南语预训练单语言模型，使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练，取得了在越南特定的自然语言理解任务上比前文献更好的表现，尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数，其表现非常出色，并且现已提供供大家使用。

Jan, 2023

PhoMT: 一个高质量和大规模的越南语 - 英语机器翻译基准数据集

本文介绍了一个高质量、大规模的越南语 - 英语平行数据集，进行了机器翻译的比较实验，结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能，这是第一个大规模的越南语 - 英语机器翻译研究，希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。

Oct, 2021

RecGPT：文本推荐的生成式预训练

我们提出了第一个经过领域适应和完全训练的大型语言模型 RecGPT-7B 及其指导模式 RecGPT-7B-Instruct，用于基于文本的推荐。实验结果表明，我们的模型 RecGPT-7B-Instruct 在评分预测和顺序推荐任务上优于以前的强基准模型。我们释放了 RecGPT 模型以及它们的预训练和微调数据集，以促进未来在基于文本的推荐领域的研究和应用。可以在此链接获取我们 RecGPT 模型和数据集：https://huggingface.com/

May, 2024

BARTPhoBEiT：面向越南视觉问答的预训练序列到序列和图像变换模型

我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT，该模型包括了预训练的越南序列到序列和双向编码器表示，用于评估越南语 VQA 数据集，并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。

Jul, 2023

基于越南社群的 COVID-19 问答的生成预训练变压器

GPT-2 在越南基于社区的 COVID-19 问题回答中的应用取得了非常有希望的结果，超过了其他 SOTA 模型以及先前为越南开发的基于社区的 COVID-19 问题回答模型。

Oct, 2023

ViT5: 预训练的文本到文本 Transformer 模型用于越南语生成

本文介绍了 ViT5，这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型，可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。

May, 2022

PhoWhisper: 越南的自动语音识别

通过在多样化的越南口音的 844 小时数据集上微调 Whisper 模型，我们介绍了 PhoWhisper 的五个版本，实验研究表明 PhoWhisper 在基准越南自动语音识别数据集上具有最先进的性能。

Mar, 2024