Empath:大规模文本话题信号理解
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过6500个在110个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中,基于主题连贯性方法引入了一种新的、定量的自动化评估指标,并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。
Sep, 2018
本文旨在通过训练嵌入来准确捕获少量数据集上限制主题的单词的意义,并可能在各种涉及该数据集的任务中使用它们。为了适应预先训练的嵌入,提出了一些策略,其中包括基于单词语料库频率的正则化。不过,本文提出的一种新的稳定度正则化策略表现更加优秀,这种策略在少量数据语境中很实用。通过在十个主题上的三个任务中的比较,我们发现,即使是最佳的嵌入适配策略也只能提供比微调基线略微增益的结果。最后,本文提出的非常见的预处理嵌入方式是通过从大型主题丰富的源语料库(如维基百科)中探索、关注和借用片段来实现的,这一步骤是通过合适的索引方法实现的。通过实验,本文得出了一个惊人的结论,即即使是很少的语料库增强也比调整嵌入更有用,这表明习惯性的语境信息可能已经从预训练的嵌入中消失,不能通过适配来挽救。
Jun, 2019
利用深度学习方法针对高级监督学习自动创建移情词汇评分,研究比较了几种不同的学习方法得出Mixed-Level Feed Forward Network(MLFFN)模型最佳,使用MLFFN模型创建了史无前例的移情词典,并使用 Signed Spectral Clustering 获得其结果的深入洞察。
Dec, 2019
本文介绍了一种新的低资源内在度量标准称为 categorical modularity,用于评估单词嵌入模型的质量。作者使用具有神经生物学意义的59个语义类别的500个核心词语,在29种语言中分析了三种单词嵌入模型,提出 categorical modularity 与单、跨语言任务性能之间存在中等到强的正相关性。
Jun, 2021
本文提出了一种新的深度生成模型来捕获嵌入空间中主题之间的依赖关系和语义相似性,这种模型名为 sawtooth factorial topic embedding guided GBN,并通过在大型语料库上的实验证明了该模型的优越性。
Jun, 2021
本文研究transformers学习的机制和语义结构,揭示了embedding层和self-attention层如何编码语义结构,具体表现为同主题单词之间的嵌入内积和自注意力相对较高。
Mar, 2023
通过对文本嵌入空间中生成的文本的属性进行分析,我们发现大语言模型生成的虚构文本模式演化跟真实文本不同,且生成技术和底层表示对产生幻觉有影响。
Sep, 2023
由于一次导致互联网使用增长70%的大流行病,全球范围内使用社交媒体的人数大幅增加。本研究通过使用词嵌入来分析评论中的组成部分和文档,调查了不同社交媒体平台上的情感和语义关系,论述了共享意见在这些不同媒体平台之间的重要性,为研究人员、政治家和商业代表提供跟踪全球用户共享情绪的路径。本研究呈现了多种测量从这些热门在线平台上提取的文本相关性的方法,通过利用捕捉语义关系的词嵌入来分析网络上的情感,我们可以揭示公众舆论作为一个整体的联系。该研究利用了来自YouTube、Reddit、Twitter等的现有数据集,并利用了像双向编码器表征来自变形器(BERT)等热门自然语言处理模型来分析情感和探索评论嵌入之间的关系。此外,我们还将利用聚类和Kl散度来发现不同社交媒体平台上这些评论嵌入之间的语义关系。我们的分析将使人们更加深入地了解在线评论之间的相互关联,并探讨互联网作为一个庞大的相互连接的大脑的概念。
Sep, 2023