Empath：大规模文本话题信号理解

Feb, 2016

Empath: Understanding Topic Signals in Large-Scale Text

Ethan Fast, Binbin Chen, Michael Bernstein

TL;DR本文介绍了一种名为 Empath 的工具，可以通过深度学习基于现代小说中的超过18亿个单词生成和验证新的词汇类别，以及分析文本的200种内置先前验证的类别。

Abstract

Human language is colored by a broad range of topics, but existing text analysis tools only focus on a small number of them. We present empath, a tool that can generate and validate new →

发现论文，激发创造

学习将单词嵌入上下文以执行句法任务

我们提出了一种基于标准神经网络架构的简单，高效的令牌嵌入模型，并通过大量未注释的文本学习了令牌嵌入，评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征，发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。

Jun, 2017

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过6500个在110个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

学习和评估稀疏可解释的句子嵌入

本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中，基于主题连贯性方法引入了一种新的、定量的自动化评估指标，并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。

Sep, 2018

通用语料库的主题敏感注意力机制纠正预训练嵌入中的词义偏差

本文旨在通过训练嵌入来准确捕获少量数据集上限制主题的单词的意义，并可能在各种涉及该数据集的任务中使用它们。为了适应预先训练的嵌入，提出了一些策略，其中包括基于单词语料库频率的正则化。不过，本文提出的一种新的稳定度正则化策略表现更加优秀，这种策略在少量数据语境中很实用。通过在十个主题上的三个任务中的比较，我们发现，即使是最佳的嵌入适配策略也只能提供比微调基线略微增益的结果。最后，本文提出的非常见的预处理嵌入方式是通过从大型主题丰富的源语料库(如维基百科)中探索、关注和借用片段来实现的，这一步骤是通过合适的索引方法实现的。通过实验，本文得出了一个惊人的结论，即即使是很少的语料库增强也比调整嵌入更有用，这表明习惯性的语境信息可能已经从预训练的嵌入中消失，不能通过适配来挽救。

Jun, 2019

从用户对文档的回应中学习词语的共情和痛苦评分

利用深度学习方法针对高级监督学习自动创建移情词汇评分，研究比较了几种不同的学习方法得出Mixed-Level Feed Forward Network(MLFFN)模型最佳，使用MLFFN模型创建了史无前例的移情词典，并使用 Signed Spectral Clustering 获得其结果的深入洞察。

Dec, 2019

评估具有分类模块化的词嵌入

本文介绍了一种新的低资源内在度量标准称为 categorical modularity，用于评估单词嵌入模型的质量。作者使用具有神经生物学意义的59个语义类别的500个核心词语，在29种语言中分析了三种单词嵌入模型，提出 categorical modularity 与单、跨语言任务性能之间存在中等到强的正相关性。

Jun, 2021

锯齿阶乘主题嵌入引导伽马信念网络

本文提出了一种新的深度生成模型来捕获嵌入空间中主题之间的依赖关系和语义相似性，这种模型名为 sawtooth factorial topic embedding guided GBN，并通过在大型语料库上的实验证明了该模型的优越性。

Jun, 2021

Transformer如何学习主题结构：迈向机制理解

本文研究transformers学习的机制和语义结构，揭示了embedding层和self-attention层如何编码语义结构，具体表现为同主题单词之间的嵌入内积和自注意力相对较高。

Mar, 2023

表示很重要：使用动态模态分解嵌入大型语言模型的方式

通过对文本嵌入空间中生成的文本的属性进行分析，我们发现大语言模型生成的虚构文本模式演化跟真实文本不同，且生成技术和底层表示对产生幻觉有影响。

Sep, 2023

探索嵌入技术以衡量文本相关性：揭示在线评论中的情感和关系

由于一次导致互联网使用增长70%的大流行病，全球范围内使用社交媒体的人数大幅增加。本研究通过使用词嵌入来分析评论中的组成部分和文档，调查了不同社交媒体平台上的情感和语义关系，论述了共享意见在这些不同媒体平台之间的重要性，为研究人员、政治家和商业代表提供跟踪全球用户共享情绪的路径。本研究呈现了多种测量从这些热门在线平台上提取的文本相关性的方法，通过利用捕捉语义关系的词嵌入来分析网络上的情感，我们可以揭示公众舆论作为一个整体的联系。该研究利用了来自YouTube、Reddit、Twitter等的现有数据集，并利用了像双向编码器表征来自变形器（BERT）等热门自然语言处理模型来分析情感和探索评论嵌入之间的关系。此外，我们还将利用聚类和Kl散度来发现不同社交媒体平台上这些评论嵌入之间的语义关系。我们的分析将使人们更加深入地了解在线评论之间的相互关联，并探讨互联网作为一个庞大的相互连接的大脑的概念。

Sep, 2023