PhoGPT:越南语生成预训练
PhoBERT 是第一个用于越南语的公开大规模单语言模型,实验结果表明,PhoBERT 在多个越南特定的自然语言处理任务中表现优异,胜过最近最好的预训练多语种模型 XLM-R,我们发布了 PhoBERT 以促进未来的越南语自然语言处理研究和下游应用。
Mar, 2020
本文介绍了两个版本的 BARTpho 模型:BARTpho-syllable 和 BARTpho-word,这两个模型是首个由越南语言训练的公共大规模单语序列到序列模型,使用 BART 的预训练机制,适用于生成式自然语言处理任务。在越南文本摘要等下游任务中,BARTpho 比强基线 mBART 表现更好,进一步在越南大写字母和标点符号恢复任务中表现更为有效。
Sep, 2021
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
我们提出了第一个经过领域适应和完全训练的大型语言模型 RecGPT-7B 及其指导模式 RecGPT-7B-Instruct,用于基于文本的推荐。实验结果表明,我们的模型 RecGPT-7B-Instruct 在评分预测和顺序推荐任务上优于以前的强基准模型。我们释放了 RecGPT 模型以及它们的预训练和微调数据集,以促进未来在基于文本的推荐领域的研究和应用。可以在此链接获取我们 RecGPT 模型和数据集:https://huggingface.com/
May, 2024
我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT,该模型包括了预训练的越南序列到序列和双向编码器表示,用于评估越南语 VQA 数据集,并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。
Jul, 2023
GPT-2 在越南基于社区的 COVID-19 问题回答中的应用取得了非常有希望的结果,超过了其他 SOTA 模型以及先前为越南开发的基于社区的 COVID-19 问题回答模型。
Oct, 2023
本文介绍了 ViT5,这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型,可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。
May, 2022
通过在多样化的越南口音的 844 小时数据集上微调 Whisper 模型,我们介绍了 PhoWhisper 的五个版本,实验研究表明 PhoWhisper 在基准越南自动语音识别数据集上具有最先进的性能。
Mar, 2024