KeypartX: 基于图形的感知 (文本) 表示

Sep, 2022

KeypartX: 基于图形的感知 (文本) 表示

KeypartX: Graph-based Perception (Text) Representation

Peng Yang

TL;DR本研究提出了一种基于图形的 KeypartX 方法，用于通过语言信息（语义、句法和语用）提取文本的知识表示，可适用于大数据且不仅仅是基于词袋 / 向量的机器学习，同时适用于文本最小单元：句子。

Abstract

The availability of big data has opened up big opportunities for individuals, businesses and academics to view big into what is happening in their world. Previous works of text representation mostly focused on in

big data text representation keypartx graph-based approach linguistic information

发现论文，激发创造

基于结构增强的文本表示学习用于高效的知识图谱补全

本研究旨在整合知识图谱的图嵌入和文本编码技术，以提高自动完成知识图谱的性能，实现更精确的链接预测和结构学习。实验结果表明，该方法能实现与文本编码方法相比 1-2 个数量级的推理成本减少和最先进的性能表现。

Apr, 2020

模仿人类过程：通过潜在语义聚类进行文本表示的分类

通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Jun, 2019

利用图变换网络对复杂文档布局中的文本语义进行建模

本文提出了一种基于图形表示的模型，并演示了我们不仅可以跨文档检索语义相似的信息，而且我们生成的嵌入空间也捕获了有用的语义信息，类似于仅适用于文本序列的语言模型。

Feb, 2022

文本表示方法及其谱系调查

本文通过归纳总结相关研究成果并构建基于谱系和分类学的文本内容表达方法来帮助人工智能研究人员更好地理解和应用自然语言处理技术。

Nov, 2022

基于大型语言模型的短文本人可解释聚类

大语言模型在内容生成能力方面取得了巨大的增长，本研究展示了这些模型还可以成功地对人类生成的内容进行聚类，通过独特性和可解释性两个度量标准来定义成功。该研究验证了这一成功，通过人工审阅和 ChatGPT 的比较，提供了一种自动化的方法来弥合挑战短文本聚类的 “验证差距”。比较人工和机器方法，我们确定了每种方法固有的偏见，并质疑依赖人工编码作为 “黄金标准”。我们将该方法应用于 Twitter 个人资料描述信息，并发现人类自我描述的特点方式，与先前专家工作相吻合，但也有表达身份特点的有趣差异，这与表达身份的媒介特性有关。

May, 2024

基于知识图谱和改进注意力机制的文本分类

为了解决文本中的语义模糊问题，我们提出了一个模型，创新地将知识图谱与改进的注意机制结合起来。该模型在字符和词级别上运作，通过集成概念来加深对文本的理解。我们首先采用信息增益选择重要词，然后采用编码器 - 解码器框架对文本及相关概念进行编码。本地注意机制调整每个概念的权重，在分类过程中减少不相关或噪声概念的影响。我们改进了本地自注意机制中注意分数的计算公式，确保文本中不同频率出现的词语获得更高的注意分数。最后，该模型采用了双向门控循环单元（Bi-GRU），从文本中提取特征以提高分类准确性。该模型在 AGNews、Ohsumed 和 TagMyNews 等数据集上达到了 75.1%、58.7% 和 68.5% 的准确率，展示了其在分类任务中的有效性。

Jan, 2024

使用图形 transformer 从知识图谱生成文本

本文介绍了一种新型图形转换编码器，可处理知识图谱等非层次性图形的内容，应用于科学文本领域的图 - 文本生成，评价结果表明，该技术可以产生比竞争的编码解码方法更具信息量且结构更好的文本。

Apr, 2019

大型语言模型向人类类似的概念组织收敛

大型语言模型在知识提取、推理和对话方面显示出与人类相似的表现，但是它们的表现究竟是通过记忆和模式匹配来解释的，还是反映了人类般的推理语义和世界知识，存在争议。本文展示了大型语言模型学习以类似于知识库的方式组织概念，这些知识库提供了推理语义和世界知识的大规模高质量表征。大型语言模型似乎从原始文本中引出这种知识，而更大更好的模型表现出更符合人类的概念组织，涵盖了四个系列的语言模型和三个知识图谱嵌入。

Aug, 2023

聊天如图：为大型语言模型进行图编码

通过对图结构数据进行编码，探究大型语言模型中图推理任务的性能提升，展示了编码器选择对图推理任务的影响，以及正确选择编码器能够提升性能的洞见。

Oct, 2023

通过序列文本和知识图谱联合学习进行知识表示

本论文提出一种基于顺序文本的知识表示学习方法，通过循环神经网络、注意力机制等实现对实体语义信息的编码和选取信息量高的语句，以及在三元组分类和链接预测任务中实现了优异的效果。

Sep, 2016