Vec2Vec: 一种高保真度文本嵌入转换的紧凑神经网络方法

Jun, 2023

Vec2Vec: 一种高保真度文本嵌入转换的紧凑神经网络方法

Vec2Vec: A Compact Neural Network Approach for Transforming Text Embeddings with High Fidelity

Andrew Kean Gao

TL;DR本研究提出了一个名为 Vec2Vec 的网络模型，它可以将开源的 768 维 MPNet 嵌入转换为 1,536 维的 text-ada-002 嵌入，其平均余弦相似度可达 0.932，并且可以用于以更低成本、更高效的方式进行搜索和数据隐私保护。

Abstract

vector embeddings have become ubiquitous tools for many language-related tasks. A leading embedding model is openai's text-ada-002 which c

vector embeddings openai neural network mpnet embeddings text-ada-002

发现论文，激发创造

Author2Vec：生成用户嵌入的框架

本文提出了一种基于神经网络和 BERT 模型的用户嵌入系统 ——Author2Vec，其通过使用 BERT 模型中的句子嵌入技术，结合新颖的无监督预训练目标，即作者分类，以生成更好的用户嵌入表示。该系统在 Reddit 平台的 1 万个用户的文章数据上进行预训练，并在抑郁症与人格分类等两个用户分类基准中进行了分析和评估，结果表明其性能优于传统的基于计数和基于预测的方法。Author2Vec 成功地编码了有用的用户属性，并在下游分类任务中表现出良好的性能，无需进一步的微调。

Mar, 2020

理解和缓解 Vec2Text 对密集检索系统的威胁

该研究论文探讨了 Vec2Text 的潜在威胁和强化方法，关注于密集检索系统中的嵌入模型、隐私问题和转换技术。

Feb, 2024

带有往返翻译的向量转文本

本文提出了一种名为 vec2text models 的模型，它可以从有限的，凸的，行为良好的控制空间生成任意自然语言文本，并且可以通过强化学习在向量空间中做出语义决策。作者通过改进 Transformer 模型并利用自动编码目标函数训练它，实现了一个 vec2text 模型，其表现出普适性、多样性、流畅性和语义结构这 4 个特性。并且，作者通过大量实验证明了这个 vec2text 模型的有效性，并且表现超越了标准的自编码器和降噪自编码器。

Sep, 2022

Speech2Vec: 从语音中学习词嵌入的序列到序列框架

本文提出一种新颖的深度神经网络架构 Speech2Vec，用于从语音语料库中学习固定长度的音频片段矢量表示，其向量包含有关底层口语词汇的语义信息，并且如果它们的对应的底层口语词汇在语义上相似，则在嵌入空间中靠近其他向量。 Speech2Vec 的设计基于 RNN 编码器 - 解码器框架，并借用 skipgrams 或连续词袋的方法进行训练。直接从语音中学习单词嵌入使 Speech2Vec 能够利用语音中的语义信息，在 13 个广泛使用的单词相似性基准测试中评估和分析了学习的单词嵌入，并且胜过了从转录中学习的 Word2Vec 单词嵌入。

Mar, 2018

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

DocTag2Vec：一种基于嵌入的文档标记多标签学习方法

本文提出了一个名为 DocTag2Vec 的新方法，通过在学习过程中同时学习单词，文档和标签的向量表示，来实现文档标记。与之前的多标签学习方法不同，它直接处理原始文本，旨在提高标签表示的学习和处理新创建标签的能力，并在多个数据集上展示了良好的表现。

Jul, 2017

MRNet-Product2Vec: 一种用于产品嵌入的多任务循环神经网络

本文提出一种名为 MRNet-Product2Vec 的方法，使用区别化的多任务双向循环神经网络，创建商品的通用嵌入，以提高电子商务生态系统中的客户体验和增加收入。经定量和定性评估，表明该方法的性能几乎与稀疏和极高维 TF-IDF 表示相当，降低了将商品表示为特征时的计算复杂度。

Sep, 2017

Company2Vec -- 基于公司网站的德国公司嵌入

使用 Company2Vec 模型，通过对公司网站数据进行 Word2Vec 嵌入和降维分析，本研究论文提出了一种新的表示学习应用。Company2Vec 能够维护语义语言结构，并在精细粒度的行业中创建高效的公司嵌入。这些语义嵌入可用于银行业的各种应用，包括语义业务分析和行业预测等。矢量化的嵌入结构还可通过余弦距离衡量公司之间的相似性，从而提供比标准行业标签（NACE）更细粒度的公司比较方法。此外，研究提供了基于公司嵌入的 k-means 聚类的替代行业分割方法，最后还提出了三种算法用于对等公司识别，包括以公司为中心、以行业为中心和以投资组合为中心。

Jul, 2023

BioSentVec: 为生物医学文本创建句子嵌入

这篇论文介绍了 BioSentVec，自然语言处理中用于句子嵌入技术的一种新方法，并且在医学文本挖掘与语义相似度任务中取得了优异表现。

Oct, 2018

Jina 嵌入 2：8192 令牌的长文本通用嵌入

Jina Embeddings 2 is an open-source text embedding model designed to process long documents efficiently, achieving state-of-the-art performance on various tasks and matching the performance of OpenAI's ada-002 model.

Oct, 2023