BriefGPT.xyz
大模型
Ask
alpha
关键词
social and geographic contexts
搜索结果 - 1
关于我:使用网页中的自我描述来记录英语预训练数据过滤的效果
大型语言模型的能力来源于它们的预训练数据,而模型开发始于数据筛选。我们的研究基于网络文本,将其连接到社交和地理背景,并创建了一个包含 1030 万个网站创作者自我描述的新数据集,提取了关于他们的兴趣、社交角色和地理隶属的信息。然后,我们进行
→
PDF
6 months ago
Prev
Next