BriefGPT.xyz
大模型
Ask
alpha
关键词
commoncrawl
搜索结果 - 2
EMNLP
低资源语言的语料库品质真的很重要吗?
通过对巴斯克语的表征学习进行案例研究,我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高,而且在巴斯克语广泛的语料库中取得了类似的结果,但我们的工作表明,低资源语言的 NLU 性能不是主要受到数据质量的限
→
PDF
2 years ago
ACL
语言无关的 BERT 句子嵌入
本研究旨在通过探究多种单语和跨语言表示学习方法,如掩码语言建模,翻译语言建模和双编码器翻译排名等,结合预训练的多语言模型来学习多语言句子嵌入,并成功将其用于多语言文本检索和机器翻译任务中。
PDF
4 years ago
Prev
Next