自我引导的对比学习方法用于 BERT 句子表示
本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法,相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT,我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8%和 1.05%。
Jun, 2021
本文提出了一种对 BERT 进行自监督 fine-tune 的对比学习框架 ConSERT,通过利用无标签文本解决 BERT 生成句子表示时的崩溃问题,进而提高了 sentence representations 的应用性能,实验结果表明在 STS 任务上优于之前的 SOTA 达 8%,并且在与 1000 份样本的情况下表现稳健。
May, 2021
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020
本研究基于自监督对比学习方法,提出了一种名为 InfoCSE 的新型框架,用于解决手工数据注释不可靠的问题,通过迭代的自我监督和数据标注反馈,实现了句子表示模型和数据注释方法的相互协作,有效提高了自监督学习的效果。实验证明,该方法在三个基准数据集上取得了显著的改善。
Feb, 2022
利用无监督的句子表示学习方法,通过对输入句子进行转换,得到富含复杂语义信息的定长向量表示,消除了对标注数据的依赖。本文提出了一种两阶段的方法,通过理解和总结对预训练模型(如 BERT)的潜在能力进行开发,并通过精细调整对比学习损失函数和模板去噪技术来进一步提高性能。实验证明,所提出的 CoT-BERT 方法在无需其他文本表示模型或外部数据库的情况下超越了一系列强大的基准模型。
Sep, 2023
本文提出了一种自监督学习方法,用于视频特征,与现有方法相比在下游任务中表现显著提高,通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况,以噪声对比估计取代 softma 损失函数,同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示,并且表明这样的跨模态训练可以进一步提高性能。
Jun, 2019
本文提出了一种基于短语重构的生成式自监督学习目标,从而在获得上下文化标记级别表示的同时,有效获取句子级别表示,在句子结构的建模上进行了精细的设计,实验结果表明,该方法在语义检索和重排序任务上超越当前最先进的对比方法。
Oct, 2022
本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
通过最大化同一文本最小扰动嵌入之间的对齐,以及在更广泛的语料库中鼓励嵌入的均匀分布,基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是,我们提出最大化文本和其短语成分组成之间的对齐,考虑了此目标的多种实现方法,并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示,与最先进的方法相当的基线改进。此外,本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。
Jul, 2023