BriefGPT.xyz
大模型
Ask
alpha
关键词
clean dataset
搜索结果 - 5
一个带有多段答案的开放领域问答数据集
CLEAN 是一个综合的中国多段落问答数据集,它包含了广泛的开放领域主题,并需要大量实例来回答描述性问题。
PDF
5 months ago
关于端到端语音翻译过滤的案例研究
通过使用最简单的筛选技术可以从大量的嘈杂数据集中减少数据量,得到一组更易管理和干净的数据集,并且在多语言到英语语音翻译模型中使用这样的清洁数据集可以显著提高模型性能,平均提升 4.65 个 BLEU 得分。
PDF
5 months ago
在数据有限的配置中减轻深度神经网络中的后门问题
通过对被污染神经元的特征进行排名,我们提出的方法可以显著降低攻击成功的几率超过 50%,即使只有极小的干净数据集,例如 CIFAR-10 数据集的十个样本,并且不会明显损害模型性能。此外,我们提出的方法比基准方法运行速度快三倍。
PDF
8 months ago
神经偏振器:通过纯化中毒特征的轻量级有效后门防御
提出了一种新的反向攻击防御方法,通过插入可学习的神经偏振器来过滤触发信息,同时保留良性信息,从而净化受污染的样本,并仅需要学习一层额外的神经偏振器,比基于微调的防御方法更高效少了干净的数据。
PDF
a year ago
COLING
少量干净实例帮助去噪远程监督
本文研究远程监督关系提取器的质量问题,旨在通过清洗少量数据以提高模型预测效果,并引入影响函数及师生机制来筛选优质实例和控制中间结果的纯度,取得了良好的去噪效果。
PDF
2 years ago
Prev
Next