Nugget：文本的神经集成嵌入

ICMLOct, 2023

Nugget: Neural Agglomerative Embeddings of Text

Guanghui Qin, Benjamin Van Durme

TL;DRNugget 是一种将语言编码为基于动态选择的子集输入标记的表示方法，通过自动编码和机器翻译等任务学习这些紧凑单元来直观地将语言分成有意义的单元，并在涉及语义比较的任务中明显优于相关方法，同时该方法还允许扩大语言模型的上下文窗口，为未来的语言模型打开了新的前景。

Abstract

embedding text sequences is a widespread requirement in modern language understanding. Existing approaches focus largely on constant-size representations. This is problematic, as the amount of information contain

embedding text sequences nugget language model contextual window

发现论文，激发创造

文本的神经嵌入

本文提出了一种新的自然语言文本嵌入方法，从语言模型的神经元权重来生成向量，称为神经嵌入，结果表明其在语义表达方面表现良好。

Aug, 2022

高效纯卷积文本编码

本文提出了一种轻量级的卷积神经网络结构，可用于创建句子的定长向量嵌入表示，可应用于构建自然语言处理系统，包括对话代理，经过优化的卷积神经网络架构可显著缩短学习时间，减少参数数量，提高自编码准确率，并通过 SentEval 基准套件评估所建模型所创建的表示，并表明这可以作为流行的词袋表示形式的更好的但资源要求较低的选择。

Aug, 2018

Nugget 2D：用于扩展仅解码器语言模型的动态上下文压缩

通过动态上下文压缩的 Nugget2D 方法，将 Transformer-based 语言模型扩展到只有解码器的 LMs，实现了对长上下文的高效处理和压缩，同时在语言建模、问答和摘要等任务中保持了较高的性能。

Oct, 2023

神经网络方法实现口语内容嵌入

通过使用循环神经网络 (RNNs) 改进了模型训练的效率和性能，我们提出了基于 RNNs 的新的区分性的声学词嵌入 (AWE) 和声学基础词嵌入 (AGWE) 的方法；我们将这些发展扩展到几种低资源语言，并且在有限标记数据的情况下展示了多语言训练的性能提升；我们将这些嵌入模型应用于基于示例的语音搜索和自动语音识别等下游任务；最后，我们展示了我们的嵌入方法与最近的自监督语音模型的比较和补充。

Aug, 2023

基于字符级文本嵌入的文本分割

该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示，并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征，以实现比表面字符 n-gram 更好的结果。

Sep, 2013

使用 LLM 嵌入进行文本聚类

通过使用大型语言模型（LLMs）的文本嵌入和聚类算法，该研究调查了文本聚类方法对数据集的影响，评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示，LLMs 嵌入在捕捉结构化语言的细微差别方面表现出色，而 BERT 在性能方面领先于其他轻量级选择。此外，我们发现增加嵌入维度和使用摘要技术并不能统一提高聚类效率，暗示这些策略需要仔细分析才能在现实模型中应用。这些结果突显了在文本聚类应用中，需要权衡对细微差别的文本表示需要和计算可行性之间的复杂平衡。该研究通过引入 LLMs 嵌入，扩展了传统文本聚类框架，从而为改进方法学和在各种类型的文本分析中开辟了新的研究方向。

Mar, 2024

大规模异构文本网络上的预测性文本嵌入

本文提出了一种名为预测性文本嵌入的半监督表示学习方法，它利用带标签和无标签数据来学习文本的嵌入，并将其表示为一种大规模异构文本网络，有效地降低了参数数量和效率。

Aug, 2015

不是所有神经嵌入都是平等的

研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能，结果表明，神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。

Oct, 2014

利用预训练语言模型生成通用文本嵌入以实现可扩展推断

研究使用共享文本编码器实现多任务推理以及使用二进制量化减少数据存储大小的方法，证明预训练的编码器在多个任务上表现的泛化性好。

Apr, 2020

BGE 地标嵌入：用于检索增强的长上下文大语言模型的无分块嵌入方法

通过可扩展嵌入实现了高质量、灵活、具有成本效益的扩展大型语言模型的上下文，通过优化架构和训练方法，具有上下文扩展的高灵活性、低成本的训练和与现有大型语言模型的兼容性，进而在长上下文语言建模和理解任务上进行综合评估，验证了可扩展嵌入作为一种有效、高效、灵活和兼容的扩展大型语言模型上下文的方法。

Feb, 2024