Dial2vec: 自导对比学习非监督对话嵌入
本文提出一种对话导向的对比学习方法,即 DialogueCSE,以解决利用对话学习句子嵌入时出现的评估训练差距。通过引入新的匹配引导嵌入机制,该方法生成了上下文感知嵌入,并通过对比损失来最小化每个上下文感知嵌入与其对应的上下文无关嵌入的差异。实验结果表明,在三个多回合对话数据集上,该方法在 MAP 和 Spearman 相关性指标方面优于基线表现,具有很高的效力。
Sep, 2021
data2vec 是一个使用标准 Transformer 结构,在语音、NLP 或计算机视觉中使用相同的学习方法,能够成功预测全面输入数据的潜在表示的框架,通过用遮掩的输入数据进行自我蒸馏设置,该方法大大提高了音频识别、图像分类和文本理解等任务的性能。
Feb, 2022
本文提出 data2vec 2.0 算法,通过利用丰富的上下文目标表示,实现了在几个模态之间进行泛化的快速自监督学习,进而在图像分类、语音识别等领域取得了很好的实验效果。
Dec, 2022
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020
本文介绍了一种对话句子嵌入技术(DSE),它采用自监督对比学习方法来学习高效的对话表示,经在五个下游对话任务上的实验验证,DSE 在零样本和少样本学习中都表现出优异的性能。
May, 2022
本研究采用知识蒸馏的方式,将文本句子嵌入器直接转移到 wav2vec 2.0,以预训练 SLU 编码器。结果表明,使用配对的音频 - 文本数据集进行预训练可以提高 SLU 任务性能,但在某些任务上表现不佳。
May, 2023
本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务,包括抽象概括,并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型,并在最近引入的 SAMSum 语料库中经验性地评估,证明我们的方法在抽象概括中做出了改进。
Sep, 2022
本文介绍了一种无监督方法,通过学习嵌入式文档和单词向量,从未标记的文档数据集中检索出预定义主题的文档,并可用于多类文档分类,使用 Lbl2Vec 工具可方便地复制此方法。
Oct, 2022
本文介绍了一种基于 BERT 的上下文对话编码器 DialogueBERT,通过五个自超监督学习预训练任务学习对话表述的特殊性,并整合了四个不同的输入嵌入来捕捉话语之间的关系,该模型在意图识别、情感识别和命名实体识别等三个下游对话理解任务中表现出优异性能。
Sep, 2021
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017