Vec2Vec: 一种高保真度文本嵌入转换的紧凑神经网络方法
本文提出了一种基于神经网络和 BERT 模型的用户嵌入系统 ——Author2Vec,其通过使用 BERT 模型中的句子嵌入技术,结合新颖的无监督预训练目标,即作者分类,以生成更好的用户嵌入表示。该系统在 Reddit 平台的 1 万个用户的文章数据上进行预训练,并在抑郁症与人格分类等两个用户分类基准中进行了分析和评估,结果表明其性能优于传统的基于计数和基于预测的方法。Author2Vec 成功地编码了有用的用户属性,并在下游分类任务中表现出良好的性能,无需进一步的微调。
Mar, 2020
本文提出了一种名为 vec2text models 的模型, 它可以从有限的,凸的,行为良好的控制空间生成任意自然语言文本,并且可以通过强化学习在向量空间中做出语义决策。作者通过改进 Transformer 模型并利用自动编码目标函数训练它,实现了一个 vec2text 模型,其表现出普适性、多样性、流畅性和语义结构这 4 个特性。并且,作者通过大量实验证明了这个 vec2text 模型的有效性,并且表现超越了标准的自编码器和降噪自编码器。
Sep, 2022
本文提出一种新颖的深度神经网络架构 Speech2Vec,用于从语音语料库中学习固定长度的音频片段矢量表示,其向量包含有关底层口语词汇的语义信息,并且如果它们的对应的底层口语词汇在语义上相似,则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架,并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息,在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入,并且胜过了从转录中学习的 Word2Vec 单词嵌入。
Mar, 2018
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本文提出了一个名为 DocTag2Vec 的新方法,通过在学习过程中同时学习单词,文档和标签的向量表示,来实现文档标记。与之前的多标签学习方法不同,它直接处理原始文本,旨在提高标签表示的学习和处理新创建标签的能力,并在多个数据集上展示了良好的表现。
Jul, 2017
本文提出一种名为 MRNet-Product2Vec 的方法,使用区别化的多任务双向循环神经网络,创建商品的通用嵌入,以提高电子商务生态系统中的客户体验和增加收入。经定量和定性评估,表明该方法的性能几乎与稀疏和极高维 TF-IDF 表示相当,降低了将商品表示为特征时的计算复杂度。
Sep, 2017
使用 Company2Vec 模型,通过对公司网站数据进行 Word2Vec 嵌入和降维分析,本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构,并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用,包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性,从而提供比标准行业标签(NACE)更细粒度的公司比较方法。此外,研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法,最后还提出了三种算法用于对等公司识别,包括以公司为中心、以行业为中心和以投资组合为中心。
Jul, 2023
这篇论文介绍了 BioSentVec,自然语言处理中用于句子嵌入技术的一种新方法,并且在医学文本挖掘与语义相似度任务中取得了优异表现。
Oct, 2018
Jina Embeddings 2 is an open-source text embedding model designed to process long documents efficiently, achieving state-of-the-art performance on various tasks and matching the performance of OpenAI's ada-002 model.
Oct, 2023