最佳综合嵌入

Jun, 2024

Optimal synthesis embeddings

Roberto Santana, Mauricio Romero Sicre

TL;DR本文介绍一种基于词嵌入组合方法，该方法旨在通过满足新向量与其组成部分的向量表示之间的距离一致且最小化来实现给定一组词的公平嵌入表示。该嵌入组合方法可适用于静态和上下文相关的词表示，适用于创建句子的表示，并学习不一定按序组织的词组的表示。我们理论上表征了这种表示存在的条件并推导了解决方案。我们在数据增强和句子分类任务中评估了该方法，研究了嵌入和组合方法的多种设计选择。我们展示了我们的方法在解决用于捕捉句子简单语言特征的探测任务方面的卓越效果。

Abstract

In this paper we introduce a word embedding composition method based on the intuitive idea that a fair embedding representation for a given set of words should satisfy that the new vector will be at the same distance of the vector representation of each of its constituents, and this di

word embedding composition vector representation sentences data augmentation probing tasks

发现论文，激发创造

针对深度组合模型的语法感知多义词嵌入

本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架，旨在促进句子中单词之间的交互，并使用环境中的句法信息来增强向量。研究结果表明，该框架在 MSRPar 任务上取得了具有代表性的结果。

Aug, 2015

句子嵌入的构成对比学习

通过最大化同一文本最小扰动嵌入之间的对齐，以及在更广泛的语料库中鼓励嵌入的均匀分布，基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是，我们提出最大化文本和其短语成分组成之间的对齐，考虑了此目标的多种实现方法，并详细阐述了每种情况下对表示的影响。语义文本相似性任务上的实验结果显示，与最先进的方法相当的基线改进。此外，本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。

Jul, 2023

使用组成性 n-Gram 特征进行句子嵌入的无监督学习

本文介绍了一种简单但高效的无监督学习方法，用于训练分布式表示的句子嵌入。该方法在大多数基准任务中性能优于最先进的无监督模型，突显了所产生的通用句子嵌入的健壮性。

Mar, 2017

评估句向量表示中的组成

文章介绍了一种可以精确和控制地针对句向量中的组合含义信息的方法，利用一个专门的句子生成系统，创建遵循特定句法、语义和词汇约束条件的带注释的大型句子集。实验表明，这种方法能够从多种现有的句子表示模型中提取有用的信息，有助于理解这些系统对句子信息的捕获能力。

Sep, 2018

评估句子嵌入中的组合性

本文介绍了一个新的自然语言推理任务数据集，旨在解决人工智能中的句子组成意思的问题，使用深度神经网络学习语义向量表示法，得出发现表明 Inference 等现有句向量算法性能较差，但使用本文提供的数据集进行训练，可提高测试性能和提高人工智能系统的表现水平。

Feb, 2018

一种集成方法生成高质量的词向量嵌入（2016）

本文提出了一种集成方法，通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合，将它们的信息融合成一个具有大型多语言词汇的共同表示，并达到了许多词语相似性评估的最先进性能

Apr, 2016

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

利用上下文嵌入模型获得更好的静态词嵌入

本研究提出使用基于 CBOW 的训练方法进行文本嵌入的知识蒸馏，可以有效地提高自然语言处理应用程序的计算效率，同时优于从头开始训练的静态嵌入和以前提出的方法提炼的嵌入。此外，该方法还可以通过标准词汇评估任务公平比较上下文和静态嵌入。

Jun, 2021

使用 Poincaré 嵌入预测名词词组的组合性

论文介绍了一种利用多层次信息和分布式信息的新技术，以检测名词短语的组合度，同时采用有监督的方法，并且使用了 Poincaré 嵌入，可以获得显著的效果提升。

Jun, 2019