评估文本嵌入的结构效度及其在调查问题中的应用

Feb, 2022

评估文本嵌入的结构效度及其在调查问题中的应用

Evaluating the Construct Validity of Text Embeddings with Application to Survey Questions

Qixiang Fang, Dong Nguyen, Daniel L Oberski

TL;DR该研究提出了使用构造效度框架评价文本嵌入模型在社会科学研究中的有效性，并发现基于BERT的嵌入技术和通用句子编码器提供了更有效的调查问题表述。

Abstract

text embedding models from Natural Language Processing can map text data (e.g. words, sentences, documents) to supposedly meaningful numerical representations (a.k.a. text embeddings). While such models are increasingly applied in →

发现论文，激发创造

衡量句子编码器中的社会偏见

本研究在Word Embedding Association Test的基础上，对句子编码进行了偏差测量，实验包括了包括ELMo和BERT在内的多种方法，并提议了未来的研究方向。

Mar, 2019

为因果推断调整文本嵌入

该论文提出了一种基于因果效应的文本嵌入学习方法，通过有监督降维和有效的文本特征筛选建立起高效的低维表示，使得足够保留有关因果关系的信息，通过实验验证了该方法相比其它文本嵌入方法更能提高因果效应评估的准确性和效率，并通过具体案例分析论证了该方法的实际应用价值。

May, 2019

BERT的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层BERT激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的BERT模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

词嵌入何时能准确反映我们对人们的信念调查结果？

本文研究了公开可得的单词嵌入在某些社会层面上的偏见反映了实际调查数据，但并非所有维度的数据都能得到反映，只有最显著的偏见维度，例如性别方面，才能得到准确的反映。

Apr, 2020

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020

SAME分数：基于余弦的词向量偏差分数的改进

本文研究了利用余弦相似度对词嵌入进行编码的偏见评分，提出了一种新的偏见评分方法 SAME，并用实验证明其比现有的评分方法更能准确评估词嵌入中的偏见。

Mar, 2022

社会科学的词嵌入：跨学科调查

研究机器学习模型，学习低维表示模式，将词嵌入技术应用于人类行为挖掘，探讨其优势和趋势，并警示相似性度量常常在单独层面返回一致结果，但在聚合层面则有可能产生不同结果。

Jul, 2022

社会科学中词嵌入的评估

本文介绍了基于37,604篇开放获取的社会科学研究论文构建和评估词向量模型。在评估中，我们比较了特定领域和通用语言模型在语言覆盖、多样性和语义关系方面的差异。我们发现，即使词汇表的大小相对较小，所创建的特定领域模型覆盖了社会科学概念的大部分，与更通用的模型相比，邻域更加多样化。在所有关系类型中，我们发现更广泛的语义关系覆盖范围。

Feb, 2023

探索嵌入技术以衡量文本相关性：揭示在线评论中的情感和关系

由于一次导致互联网使用增长70%的大流行病，全球范围内使用社交媒体的人数大幅增加。本研究通过使用词嵌入来分析评论中的组成部分和文档，调查了不同社交媒体平台上的情感和语义关系，论述了共享意见在这些不同媒体平台之间的重要性，为研究人员、政治家和商业代表提供跟踪全球用户共享情绪的路径。本研究呈现了多种测量从这些热门在线平台上提取的文本相关性的方法，通过利用捕捉语义关系的词嵌入来分析网络上的情感，我们可以揭示公众舆论作为一个整体的联系。该研究利用了来自YouTube、Reddit、Twitter等的现有数据集，并利用了像双向编码器表征来自变形器（BERT）等热门自然语言处理模型来分析情感和探索评论嵌入之间的关系。此外，我们还将利用聚类和Kl散度来发现不同社交媒体平台上这些评论嵌入之间的语义关系。我们的分析将使人们更加深入地了解在线评论之间的相互关联，并探讨互联网作为一个庞大的相互连接的大脑的概念。

Sep, 2023

从预训练变换模型中提取句子嵌入

本研究解决了当前句子嵌入提取方法的不充分性，提出了多种改进的表示提取技术，尝试优化BERT的句子表示。研究显示，通过简单的基线方法及其表示塑造技术，能够在语义文本相似性和短文本聚类任务中显著提升性能，甚至超过复杂的BERT模型。

Aug, 2024