BriefGPT.xyz
Ask
alpha
关键词
textual corpora
搜索结果 - 2
塞尔维亚语言建模的新文本语料库
该文章介绍了用于大型语言模型训练的塞尔维亚语(和塞尔维亚 - 克罗地亚语)的文本语料库,并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类,并详细说明其特点。此外,文章还介绍了三个新的语料库:一个新的塞尔维亚 - 克罗地亚
→
PDF
2 months ago
GAIA 搜索: Hugging Face 与 Pyserini 的自然语言处理训练数据探索互操作性
本篇论文提出使用信息检索领域的成熟和经过多次测试的方法来对现代 NLP 的大规模文本语料库进行快速和用户友好的质性分析,提出了 GAIA Search 作为一个在 NLP 数据质量分析中既可以作为原型工具又可以作为独立的定性分析工具的搜索引
→
PDF
a year ago
Prev
Next