从海量文本语料库中发现元模式的MetaPAD
该论文提出了一种基于知识库的自动短语挖掘框架 AutoPhrase,利用大规模高质量短语取代昂贵的人工规则以及标注,通过浅层句法分析模型和词性标注进一步提高性能,可适用于任何语言。在不同领域和语言的五个真实数据集上,相比现有的方法,新方法在效果上有显著改善。
Feb, 2017
本文研究了两种无监督上义词检测方法:基于模式和基于分布的方法。在多个上位词任务上,实验发现基于模式的方法在常见基准数据集上始终优于基于分布的方法。结果表明,基于模式的模型提供了尚未在基于分布的方法中捕获的重要语境约束。
Jun, 2018
本文探究了利用异构信息网络的 metadata 和 motif 来帮助弱监督文本分类,提出了一种名为 MotifClass 的新框架来选择标志类别 motif 实例,基于类别名称和标志类别 motif 实例检索并生成伪标记训练样本,使用伪训练数据训练文本分类器,并通过对真实世界数据集的广泛实验证明了 MotifClass 相对于现有弱监督文本分类方法的卓越性能和考虑高阶元数据信息在我们的框架中的好处。
Nov, 2021
我们探讨了如何捕捉文章中的子文本块的重要性以及如何将其用于文本挖掘任务。我们提出了内容重要性分布(CSD)的概念,利用Hugging Face的SentenceTransformer生成句子的上下文嵌入,使用MoverScore测量子文本块与整个文本的相似度,进而利用CSD-1提取语言特征训练SVC分类器来评估文章的组织质量。通过实验,我们展示了这种方法在评估学生论文方面具有高准确性。
Nov, 2023
WordScape是一种用于创建包含数百万页具有文档布局检测注释的跨学科、多语言语料库的新型流程。它通过解析从Web获取的Word文档的Open XML结构,提供有布局注释的文档图像和它们的文本表示,以克服多种文档理解任务中的挑战,并减少手动标注成本。
Dec, 2023
利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式,并发现了人类写作在不同领域中的结构多样性,强调了在文本分析中加入层次化的语篇特征的重要性。
Feb, 2024
本研究旨在研究波斯语下的主题检测,通过对现有算法进行深入研究、波斯语的适应性改进,以及在波斯语社交网络文本上的性能评估,发现具备良好表现的算法类别为混合类别,对于易于理解的关键词主题搜索,而频繁模式类别则更适合用于进一步分析的帖子聚类。
Mar, 2024
信息抽取是自然语言处理(NLP)中的一系列任务,用于识别文本中的子序列及其标签,并链接自由文本和结构化数据。本文提出了一种以文本片段为中心的统一视角,将多样的信息抽取任务重新定位为同一基本的以文本片段为导向的信息抽取任务。
Mar, 2024