TopicGPT:一种基于提示的主题建模框架
我们提出了 PromptTopic,一种利用大型语言模型的先进语言理解能力从句子级别提取主题并将其汇总和压缩为预定数量的主题,从而消除了手动参数调整的需求并提高了提取主题的质量。我们在三个完全不同的数据集上与最先进的基线模型进行了比较,并展示了 PromptTopic 在发现有意义的主题方面的能力。此外,定性分析展示了 PromptTopic 在多个数据集中发现相关主题的能力。
Dec, 2023
本文提出了一种名为图向话题(G2T)的框架,该框架能够使用预训练语言模型获取文档表示,并通过语义图和社区检测等方法进行主题建模。自动评估结果表明,G2T 在英文和中文文档上均取得了最优表现,并且比基线模型产生了更好的可解释性和覆盖范围。
Apr, 2023
本研究旨在探讨大型语言模型(LLMs)在主题提取方面的潜力,并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估,总结了采用 LLMs 进行主题提取的优势和限制。
Mar, 2024
通过使用大型语言模型 (LLMs) 进行主题建模的两种方法,即并行提示和顺序提示,本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战,并证明这些方法能够识别出比现有方法更连贯的主题,同时保持引发主题的多样性。此外,本研究发现所推断的主题充分涵盖了输入文本,而几乎没有产生虚构的主题。
Jun, 2024
一项最近的自然语言处理研究旨在结合语言模型和主题模型,这些主题引导的语言模型通过将主题模型与神经语言模型相结合,采用无监督学习方法来发现文档级别的词汇使用模式。本文比较了这些方法在标准化环境中的效果,并发现这些方法中没有任何一种超越了标准 LSTM 语言模型基准,并且大多数方法无法学习到好的主题。此外,我们训练了一个探测神经语言模型的方法,结果显示基准模型的隐藏状态已经编码了主题信息。本研究公开了所使用的所有代码。
Dec, 2023
提出了一种新的查询驱动主题模型,可以允许用户指定一个简单的查询,并返回相关的主题,从而避免了领域专家的繁琐工作。实验结果表明,该模型相比于传统和神经主题模型更加有效。
May, 2021
本文提出了一种基于模式提取和选择的框架,PatternGPT,通过生成大型语言模型的抽取能力和联邦学习的思想来生成丰富的模式,并通过定义标准和优化算法来选择高品质的模式,并优化生成结果和用户体验的质量,从而提高大型语言模型的文本生成能力,有望促进智能对话和内容生成领域的进一步发展。
Jul, 2023
本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用,通过评估话语建模的能力,比较它与商业翻译系统和高级文档级机器翻译方法的性能,发现 Chat-GPT 在人类评估方面表现优异,同时揭示了话语建模的挑战和机遇。
Apr, 2023
在这项研究中,我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5(通常被称为 ChatGPT)在提取叙述实体(事件、参与者和时间表达)方面的能力,并发现它们与开箱即用的基准系统相媲美,为资源有限的从业者提供了一种全能的替代方案。通过研究这些模型在信息提取领域的优势和局限性,我们提供了可以指导未来改进和探索的见解。
Nov, 2023