文本识别的自我监督预训练
本文比较了自监督表示学习算法 - 无量化学习和显式量化学习,发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表,并在随后的 BERT 训练中学习了有效的表示方法,从而实现了训练量极小的语音识别系统。
Nov, 2019
本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用,包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。
Jul, 2020
该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型,该模型可以无阈值地更新先前标记的文档的信念,并且可以处理语义漂移问题,使用迭代蒸馏过程,跨迭代传输假设,利用两阶段训练模型,使用高效的学习率调度和使用伪标签转换启发式方法。
Sep, 2021
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
SelfDoc 是一个文档图像理解的任务无关的预训练框架,利用文档的位置、文本和视觉信息,并建模内容块之间的上下文关系,提出了一种新的跨模态学习模型,优于现有模型,同时具有自适应的视觉语言融合机制并应用自监督模型预训练,与以前作品相比,使用较少的文档图片达到更好的性能。
Jun, 2021
深度学习在医学影像中具有潜力,可以减少诊断错误的风险,减轻放射科医生的工作负荷并加速诊断。为了解决医学影像领域注释数据集不足的挑战,我们通过预先训练大型无注释图像数据集上的深度学习模型来实现自我监督学习,并提出了 SparK 预训练方法,它在小型数据集上表现更为稳健。
Aug, 2023
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
提出了一种使用掩蔽重构损失进行预训练语音表示的方法,实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明,预训练、掩蔽段、领域适应都能提高语音识别性能。
Jan, 2020