MCP:基于多级对比采样的个性化聊天机器人自学习预训练
本文总结了最近自监督和有监督对比 NLP 预训练方法,并描述了它们在提高语言建模、零样本学习、预训练数据效率和特定 NLP 终端任务方面的应用。文章介绍了关键的对比学习概念,总结了应用和交叉领域关系的结果。最后,我们指出了对比 NLP 的未来挑战和方向,以鼓励将对比 NLP 预训练推向近期在图像表示预训练中的成功。
Feb, 2021
本研究提出了一种名为 GCPC 的改进型 CPC 方法,可以注入先验知识并在 Tacotron2 上进行预训练,实验表明,相比于 CPC,该方法在德语,法语和英语等自动语音识别任务中均表现出更好的识别效果。
Oct, 2022
本研究提出一种新的意图发现方法,通过多任务预训练和对比损失优化聚类来学习语义表述以扩展对话系统中支持的意图类别。实验结果表明,该方法在半监督和无监督场景下均优于现有方法。
May, 2022
本文介绍了一种基于 BERT 的上下文对话编码器 DialogueBERT,通过五个自超监督学习预训练任务学习对话表述的特殊性,并整合了四个不同的输入嵌入来捕捉话语之间的关系,该模型在意图识别、情感识别和命名实体识别等三个下游对话理解任务中表现出优异性能。
Sep, 2021
本文提出了一种利用社交网络进行少样本个性化对话的元学习方法,并说明了该方法相较于传统的对话生成方法在适应性、多样性和与说话人的一致性等方面的优势。
May, 2021
本研究对自监督学习中采用对比学习方法的常见预训练任务及各种方法进行了广泛的回顾,并通过图像分类,目标检测和动作识别等多个下游任务的性能比较,探讨了当前方法的限制以及未来发展方向。
Oct, 2020
本文研究自我监督对比学习中的两个关键因素:批大小和预设任务,并提出了一种自适应的批融合技术,通过降维和重构批数据,使以前孤立的个体数据能够通过嵌入层在批内进行通信,随着训练进行,自适应地增强自我监督特征编码能力。通过在 ImageNet-1k 上进行线性分类测试,实证结果表明我们的方法在公平比较下实现了最先进的性能。在 ImageNet-100 上,相对于原始性能,top1 最多提高了 1.25%。我们认为该方法可能有助于数据驱动的自我监督学习研究的进展,并为该领域带来新的视角。
Nov, 2023
本文介绍了一种应对多方对话机器阅读理解中复杂讲话信息和嘈杂的对话语境等困难的方法,通过使用两种无需标注的自监督预测任务来隐式地建模讲话者信息流和抓取长对话中显著的线索。实验结果表明,本方法比竞争基准和当前最先进的模型更为有效。
Sep, 2021