- GIO:梯度信息优化的训练数据集选择
Gradient Information Optimization(GIO)是一种高度可扩展的、任务不可知的数据选择方法,可在仅需要一小组代表目标分布的(未标记的)示例的情况下,训练具有优秀结果的模型。
- 众包标注中的手写文本识别
本文研究了多种训练模型的方式来识别手写文本,特别是在存在多个不完整或有噪声的转录版本时,考虑了不同的训练配置和数据选择方法,并在法国贝尔福市的城市登记册上进行了实验,结果表明,计算共识转录或基于多个转录进行训练是有希望的替代方案,但基于注释 - ACL使用转移的 Shapley 值对大语言模型进行微调的数据选择
提出了一种名为 TS-DShapley 的算法,通过一种高效的基于采样的方法和一种数据价值信息的传递方法,大大减少了 Shapley 基于数据评估的计算成本,可以对大型预训练语言模型进行微调,并在基准自然语言理解(NLU)数据集上提升了语言 - 基于认识不确定性的数据选择,将预训练的 ASR 模型适应于低资源临床语音
使用信息不确定性的数据选择方法可以减少成本并提高在稀缺数据情况下非洲口音临床自动语音识别的泛化性能,并优于现有最先进 ASR 模型
- 利用梯度衍生的度量对不同 ially private 训练中的数据选择和估值进行优化
研究了如何在严格保护隐私的情况下,利用梯度信息来选择有利于模型训练的数据,解决在协同训练深度学习模型中,难以区分出有用数据点的问题。
- 探索神经网络的现象学理解:数据
从集成变量构建的神经网络理论可以帮助科学家更好地理解学习过程。本研究引入了熵和经验神经切向核(NTK)的迹这两个变量,通过这些变量分析神经网络性能,发现起始熵、NTK 迹和训练后计算的模型泛化之间存在相关性。同时,将该框架应用于神经网络训练 - RD-DPP: 速率失真理论 meets 确定性点过程以实现多样化学习数据样本
该研究提出了一种基于速率失真理论的选择具有任务导向的多级分类数据样本的新方法,称为 RD-DPP,可用于评估数据样本的情境感知多样性。此外,该研究观察到了基于确定性点过程的数据选择在样本累积过程中存在相变现象,从而设计出一种双峰方法以获得更 - 基于语音库差异的无监督数据选择在 ASR 中的应用
本研究提出了一种基于语音语料库分歧的无监督目标感知数据选择方法,使用自监督 Hubert 模型将语音语料库离散化为标签序列,计算 N-gram 概率分布,并计算 N-gram 之间的 KL 散度作为 SCD,从而选择与目标语料库具有最小 S - 通过重要性重采样进行语言模型数据选择
本文介绍了一种基于重要性重采样的数据选择算法,该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域(例如维基百科)和特定领域的语言模型时,该算法能够显着提高模型的性能。
- 以阿拉伯广播新闻为案例研究的 TTS 无监督数据选择
本文探讨了一种针对低资源语言的完全无监督的 TTS 建模方法,旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中,该方法成功地使用了广播新闻作为语料集,通过自动数据选择和预训练 / 微调策略,提高了模型的性能。
- AAAISEPT: 实现可扩展和高效的视觉预训练
本文提出了一种用于视觉预训练的可伸缩和有效的自我监督预训练框架,该框架从数据选择的角度出发,并利用相关性来提高下游任务的表现。实验结果表明,该框架可以降低训练样本量并提高模型架构的灵活性。
- 深度主动学习在图像分类中的有效性实证研究
本研究对 19 种不同的 DAL 方法在统一设置下进行评估,发现大多数 SAL 方法不能比随机选择获得更高的准确度,相较于纯 SAL 方法,半监督训练带来显著的性能提升,尤其是在数据丰富的情况下进行数据选择可以实现显著和一致的性能提升,建议 - 高效编码器预训练的自动文档选择
通过自动识别小但代表领域的子集,我们提出了一种替代更大的训练集的方法来预训练语言模型,拓展了一种基于统计的句子评分方法,以代表性目标领域语料库作为条件,例如,我们将 OntoNotes 语料库视为目标域并从 Pile cynically 选 - 基于提示不确定性传播方法的少样本语言模型微调的冷启动数据选择
本文提出了一种新的方法 PATRON,它使用基于提示的不确定性估计来选择数据,以进行在冷启动场景下进行预训练语言模型微调,并且在六个文本分类数据集上的实验证明,PATRON 优于最强的冷启动数据选择基准高达 6.9%。
- ICML可学习、值得学习且尚未学习的点的优先训练
使用可减少示例并且减少噪点的筛选技术进行训练能够减小无关点对模型学习的干扰。在类似 RHO-LOSS 这样可削减的示例中训练的时间比现有技术短得多,提高了准确性,并在广泛的数据集、超参数和架构中加快了训练
- CVPR学习独特边界以实现主动领域自适应
提出了一种有效的主动学习方法 Select-by-Distinctive-Margin (SDM),通过最大边距损失和边距采样算法进行数据选择,具有在领域适应和半监督学习下的竞争性结果和良好的数据可伸缩性。
- ACLFAMIE: 一个面向多语言信息抽取的快速主动学习框架
该论文介绍了 FAMIE,这是一个专为多语言信息提取而设计的全面且高效的主动学习工具包。FAMIE 基于使用小型代理网络进行快速数据选择的思想,引入了一种新的知识蒸馏机制,将代理网络与主大型模型(即基于 BERT 的模型)同步,以确保所选注 - EMNLP预训练语言模型的动态知识蒸馏
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效 KD 方法的未来方向的讨论。
- ACL神经语言模型的域自适应权衡
探讨了语言模型适应与机器学习理论的关系,研究了大型领域外训练集和小型领域内训练集之间的训练方法的优劣,提出了领域外预训练加上领域内微调比单独应用更为通用,并提出了基于数据选择的适应技术的公共框架。
- EMNLP基于流派的弱监督跨语言依存分析
本文研究表明,单语掩模语言模型学习表示数据驱动的语言变化概念,可用于目标导向的训练数据选择。作者将数据集类型标签作为弱监督信号,用于零样本依存分析中的有针对性数据选择。作者还表明,数据集类型是可恢复的,并且提供了一个有效的信号用于跨语言零样