Nov, 2022

L3Cube-MahaSBERT 和 HindSBERT:用于印地语和马拉地语的句子 BERT 模型和评估 BERT 句子表示的基准

TL;DR本文介绍了使用合成的 NLI 和 STS 数据集,针对印地语和马拉地语这两种低资源语言,使用 NLI 预训练和 STSb 微调策略训练生成的高性能 Sentence-BERT 模型,并在下游文本分类和相似性任务中进行了评估。同时,提出了基于不同模型的句子嵌入的比较分析,并释放了 L3Cube-MahaSBERT 和 HindSBERT。