文本表示方法及其谱系调查

Nov, 2022

A Survey of Text Representation Methods and Their Genealogy

Philipp Siebers, Christian Janiesch, Patrick Zschech

TL;DR本文通过归纳总结相关研究成果并构建基于谱系和分类学的文本内容表达方法来帮助人工智能研究人员更好地理解和应用自然语言处理技术。

Abstract

In recent years, with the advent of highly scalable artificial-neural-network-based text representation methods the field of natural language processing has seen unprecedented growth and sophistication. It has be

text representation natural language processing neural network distributional hypothesis taxonomy

发现论文，激发创造

从传统到最先进的单词表示语言模型：全面调查

本文综述了自然语言处理中的单词表示模型，介绍了从传统到现代的语言模型，包括各种文本表示方法，并讨论了这些模型在机器学习算法中的应用，以及在不同 NLP 任务中使用这些单词表示的应用。

Oct, 2020

多语言文本表示

现代自然语言处理的突破包括能够在 100 多种语言中执行任务的大型多语种模型。最先进的语言模型从简单的独热编码词表示开始，能够执行自然语言理解、常识推理或问答等任务，从而捕捉文本的语法和语义。同时，语言模型正在超越我们所知的语言界限，甚至在资源非常有限的濒危语言的方言中获得有竞争力的表现。然而，仍然存在一些问题，需要解决，以确保通过统一的建模空间在语言和说话者之间获得公正的文本表示。在本调研中，我们阐述了多语种文本表示的迭代进展，并讨论了最终导致当前最先进技术的推动因素。随后，我们讨论了如何实现语言民主化的全部潜力，突破所知的限制，并探讨在该领域的改进范围。

Sep, 2023

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

超越语言：句子表示的全面调查

本文综述了句子表示学习的各种方法，包括传统的和基于深度学习的技术，并对该领域的主要贡献和挑战进行了系统梳理，结论强调了句子表示学习在自然语言处理中的重要性和面临的挑战，并提出了未来研究方向和改进句子表示质量和效率的潜在途径。

May, 2023

文本的包容性概念

本研究旨在确定自然语言处理中所谓文本的概念，并提出一套通用术语和分类体系，以扩展文本的范围，从而更好地进行 NLP 建模。该研究强调了包容性方法在 NLP 中处理文本的重要性，并呼吁开发者采用系统化的报告方式，以巩固该话题。

Nov, 2022

对推特数据无监督文本表示方法的实证调查

本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务，并表明先进的模型不一定在 tweets 上表现最佳，需要在这一领域进行更多探索。

Dec, 2020

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

语义相似度的演化 -- 综述

本文旨在全面概述自然语言处理领域中语义相似度计算的研究现状和各种方法及其优劣，将其归类为基于知识、基于语料库和基于深度神经网络等不同原理的方法，并希望能够促进新研究者的创新思路和实验。

Apr, 2020

通过图神经网络进行文本分类的综述

本文介绍文本分类的方法，重点讨论基于图神经网络的文本分类，分别从构造机制和学习过程等方面对文本分类方法进行详细介绍，并涵盖数据集，评估指标和实验设计等方面，通过对公开基准测试的综合比较评估和评估指标的优缺点比较，总结出各个技术的优缺点。

Apr, 2023

使用基于 NLP 的文本表示技术支持需求工程任务：一项系统性映射综述

本篇论文探讨了近年来自然语言处理在需求工程领域中的应用，通过系统文献综述的方法，发现除了传统的基于词法和句法特征，利用高级嵌入式表示的需求表征在大部分需求工程任务中均表现出很好的效果；但在其他任务中，基于词法和句法特征的表征仍然更为适用。同时，本文也指出了未来的研究方向和更深入探讨的问题。

May, 2022