从海量文本语料库中发现元模式的MetaPAD

Mar, 2017

从海量文本语料库中发现元模式的MetaPAD

MetaPAD: Meta Pattern Discovery from Massive Text Corpora

Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance M. Kaplan...

TL;DR本文提出了一种新型的文本模式结构——元模式，扩展到某些情境下的频繁、信息丰富、精确的子序列模式，并提出了一种有效的框架 MetaPAD，该框架可以从大规模语料库中发现元模式，从而实现高质量的信息提取。

Abstract

Mining textual patterns in news, tweets, papers, and many other kinds of text corpora has been an active theme in text mining and nlp research. Previous studies adopt a dependency parsing-based →

发现论文，激发创造

文本语料库中的可扩展主题短语挖掘

本文提出一种基于短语挖掘算法的主题模型，该算法能够在保证计算效率的同时，高效地发现论文标题、摘要、评论和新闻文章等多种数据集中的高质量主题短语。

Jun, 2014

大规模文本语料库中的自动短语挖掘

该论文提出了一种基于知识库的自动短语挖掘框架 AutoPhrase，利用大规模高质量短语取代昂贵的人工规则以及标注，通过浅层句法分析模型和词性标注进一步提高性能，可适用于任何语言。在不同领域和语言的五个真实数据集上，相比现有的方法，新方法在效果上有显著改善。

Feb, 2017

知识库中的自动同义词发现

提出了一个新的框架DPE，通过结合远程监督和语料库级别统计的分布特征和局部上下文的文本模式来相互补充信号，从而发现特定领域知识库实体的同义词。

Jun, 2017

Hearst模式再探：基于大型文本语料库的自动上下位词检测

本文研究了两种无监督上义词检测方法：基于模式和基于分布的方法。在多个上位词任务上，实验发现基于模式的方法在常见基准数据集上始终优于基于分布的方法。结果表明，基于模式的模型提供了尚未在基于分布的方法中捕获的重要语境约束。

Jun, 2018

MotifClass: 基于高阶元信息的弱监督文本分类

本文探究了利用异构信息网络的 metadata 和 motif 来帮助弱监督文本分类，提出了一种名为 MotifClass 的新框架来选择标志类别 motif 实例，基于类别名称和标志类别 motif 实例检索并生成伪标记训练样本，使用伪训练数据训练文本分类器，并通过对真实世界数据集的广泛实验证明了 MotifClass 相对于现有弱监督文本分类方法的卓越性能和考虑高阶元数据信息在我们的框架中的好处。

Nov, 2021

文章中次要文本块的内容重要性分布及其在文章组织评估中的应用

我们探讨了如何捕捉文章中的子文本块的重要性以及如何将其用于文本挖掘任务。我们提出了内容重要性分布（CSD）的概念，利用Hugging Face的SentenceTransformer生成句子的上下文嵌入，使用MoverScore测量子文本块与整个文本的相似度，进而利用CSD-1提取语言特征训练SVC分类器来评估文章的组织质量。通过实验，我们展示了这种方法在评估学生论文方面具有高准确性。

Nov, 2023

WordScape: 从 Web 爬取数据中提取多语言、视觉丰富的文档与布局注释的流程

WordScape是一种用于创建包含数百万页具有文档布局检测注释的跨学科、多语言语料库的新型流程。它通过解析从Web获取的Word文档的Open XML结构，提供有布局注释的文档图像和它们的文本表示，以克服多种文档理解任务中的挑战，并减少手动标注成本。

Dec, 2023

微妙之线：通过篇章模式检测机器生成的文本

利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式，并发现了人类写作在不同领域中的结构多样性，强调了在文本分析中加入层次化的语篇特征的重要性。

Feb, 2024

波斯文本流主题检测中频繁模式挖掘和聚类类别的全面研究

本研究旨在研究波斯语下的主题检测，通过对现有算法进行深入研究、波斯语的适应性改进，以及在波斯语社交网络文本上的性能评估，发现具备良好表现的算法类别为混合类别，对于易于理解的关键词主题搜索，而频繁模式类别则更适合用于进一步分析的帖子聚类。

Mar, 2024

基于跨度的信息抽取 -- 关于信息抽取的统一视角

信息抽取是自然语言处理（NLP）中的一系列任务，用于识别文本中的子序列及其标签，并链接自由文本和结构化数据。本文提出了一种以文本片段为中心的统一视角，将多样的信息抽取任务重新定位为同一基本的以文本片段为导向的信息抽取任务。

Mar, 2024