离散余弦变换作为通用句子编码器
本论文提出了使用离散余弦变换 (DCT) 压缩以保持顺序的单词序列来代替向量平均法进行句子嵌入。与向量平均法相比,这种方法更好地保留了句法信息,从而在与句法相关的分类任务中表现更好。
Sep, 2019
本文介绍 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations,是一种无监督的学习通用语句嵌入的方法,其优于仅仅使用大规模数据集。该方法扩展了基于 Transformer 的语言模型的预训练,可以在大量的未标注培训数据下达到可监管培训的质量水平,这个解决方案可以应用于没有标注数据的语言和领域。该研究的代码和预训练模型是公开的,可以轻松地适应新的领域或用于嵌入以前不见过的文本。
Jun, 2020
本文提出了基于 CNN 编码器和 LSTM 解码器的分布式句子表征学习方法,旨在实现对多种任务的应用。作者通过训练模型在大规模小说数据集上获得高通用性的卷积句子编码器,并通过多项实验表明该模型在各类应用中均优于竞争方法。
Nov, 2016
本研究介绍了一种生成句子嵌入向量的模型,旨在实现到其他自然语言处理任务的迁移学习,并探讨了模型复杂度、资源消耗、迁移任务训练数据可用性和任务性能之间的关系。作者发现句子嵌入迁移学习通常优于单词级别的迁移,并可以在极少量监督训练数据的情况下实现出人意料的良好表现。
Mar, 2018
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
本文研究了以余弦基函数为基础的无记忆单变量连续函数逼近方法。通过有监督学习获得逼近系数,而非使用离散余弦变换(DCT)。由于余弦基函数具有有限动态和正交性质,简单的梯度算法,如归一化最小均方(NLMS)算法,可从中获益,并具有可控且可预测的收敛时间和误差调整。由于其简单性,该技术在学习质量与复杂性方面排名第一,并被提出作为更复杂的有监督学习系统中使用的一种有吸引力的技术。通过仿真实例展示了该方法的性能。本文也庆祝了 1973 年 Nasir Ahmed 发表离散余弦变换(DCT)的 50 周年。
Sep, 2023
我们研究了如何将基于 transformer 的句子嵌入压缩成一种表示,以分离不同的语言信号,特别是与主谓一致和谓词交替相关的信息。通过在变分自编码器类似系统的潜在层中压缩共享目标现象的输入序列,我们发现目标语言信息变得更加明确。具有离散和连续组成部分的潜在层比只有离散或只有连续组成部分的潜在层更好地捕捉目标现象。这些实验是将分布式文本嵌入中的语言信号与更符号化的表示相分离并将它们联系起来的一步。
Dec, 2023
本文提出了一种在离散余弦变换(DCT)表示上执行语义分割的方法,通过重新排列 DCT 系数以形成首选输入类型,并针对 DCT 输入量调整现有网络来实现。该方法的准确性接近于 RGB 模型,在网络复杂性相当的情况下,适当选择 DCT 分量可以使用 36%的 DCT 系数获得相同水平的准确性,并且可以显示该方法的鲁棒性在量化误差下。据我们所知,这是第一篇探索 DCT 表示上的语义分割的论文。
Jul, 2019
利用无监督的句子表示学习方法,通过对输入句子进行转换,得到富含复杂语义信息的定长向量表示,消除了对标注数据的依赖。本文提出了一种两阶段的方法,通过理解和总结对预训练模型(如 BERT)的潜在能力进行开发,并通过精细调整对比学习损失函数和模板去噪技术来进一步提高性能。实验证明,所提出的 CoT-BERT 方法在无需其他文本表示模型或外部数据库的情况下超越了一系列强大的基准模型。
Sep, 2023
该论文提出了一种针对句子表示的持续学习场景,通过使用独立于语料库的特征对句子编码器进行初始化,并使用布尔运算的概念器矩阵来连续更新句子编码器,该方法可以在保持先前语料库准确性的基础上,从新的语料库中学习特征;并在语义文本相似性任务上对该方法进行了评估,表明该方法可以不断地学习新的语料库特征而保留其在先前语料库上的能力。
Apr, 2019