May, 2023

预训练 BERT 模型在印地语 - 英语混合数据中的比较研究

TL;DR本研究专注于解决 “Code Mixed” 现象在低资源的印地语 - 英语多语混合情况下对自然语言处理所带来的问题,并通过使用预训练的 Transformer-based Models 模型,重点比较分析了 HingBERT、mBERT、AlBERT、BERT 和 RoBERTa 等不同模型的性能。研究结果显示,HingBERT 模型在实际 “Code Mixed” 文本训练的情况下取得了最优秀的表现与较大的性能提升。