BriefGPT.xyz
Ask
alpha
关键词
dataset design
搜索结果 - 4
RS-GPT4V:一份用于遥感图像理解的统一多模态指令跟随数据集
远程传感图像智能理解模型正在经历一个深刻的新范式转变,即从学习域模型的范式转变为先学习预训练的通用基础模型,然后再进行自适应域模型的范式。在新的自适应域模型范式下,过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认
→
PDF
18 days ago
数据过滤网络
通过构建数据过滤网络,该论文研究了大训练集上数据筛选的问题,并基于该网络构建了新的图像 - 文本数据集,为状态 - of-the-art 模型训练提供了高性能数据集,同时还释放了可从公开数据从头训练高性能数据过滤网络的新的 200 亿样本数
→
PDF
9 months ago
ICML
表征很重要:评估训练数据中子组分配的重要性
通过将数据收集视为学习过程的一部分,我们表明不仅多样化的训练数据可以提高子群体的性能,还可以实现人口水平的目标。我们的分析和实验描述了数据集组成如何影响性能,并提供了建设性的结果,以利用现有数据的趋势和领域知识,帮助指导有意识、具有目标意识
→
PDF
3 years ago
关于跨数据集通用性的在线滥用自动检测
通过无监督主题模型和人工主题关键词检查,我们发现 Wikipedia Detox 数据集中温和的例子偏向于平台特定主题,移除这些主题可以提高跨数据集泛化能力,同时不会降低领域内分类性能,为了建立一个有效的数据集设计,我们建议在手动标注类标签
→
PDF
4 years ago
Prev
Next