大型文本数据中的交互式概念学习和主题发现

ACLMay, 2023

大型文本数据中的交互式概念学习和主题发现

Interactive Concept Learning for Uncovering Latent Themes in Large Text Collections

Maria Leonor Pacheco, Tunazzina Islam, Lyle Ungar, Ming Yin, Dan Goldwasser

TL;DR本研究提出了一种交互式框架，该框架通过接收并编码领域相关的概念和专家反馈来维护领域专家对学习的控制，从而在自动化和手动编码之间取得平衡。

Abstract

Experts across diverse disciplines are often interested in making sense of large text collections. Traditionally, this challenge is approached either by noisy unsupervised techniques such as topic models, or by following a manual →

text collections theme discovery interactive framework expert feedback automation

发现论文，激发创造

概念诱导：使用 LLooM 对非结构化文本进行高级概念分析

我们引入概念归纳，一种从非结构化文本中提取明确纳入标准的高级概念的计算过程，该过程通过使用大型语言模型不断合成抽样文本并提出具有不断广泛性的可解释概念。我们在具有毒性的在线评论数据集上实例化了 LLooM，并通过技术评估和四个分析场景的研究发现，LLooM 的概念在质量和数据覆盖方面优于传统的主题模型，并且在专家案例研究中能够帮助研究人员发现以前未注意到的见解。

Apr, 2024

通过可扩展的主题嵌入从连续新闻流中无监督地发现故事

该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现，并在真实新闻数据集上进行了全面评估，结果表明 USTORY 的性能比基线更高，并且具有鲁棒性和可扩展性。

Apr, 2023

解读教育故事主题

本研究关注阅读理解的新一级别 —— 解释性理解，特别强调推断叙述文本的主题。我们介绍了第一个专门设计用于解释性理解教育叙述文本的数据集，并提供相应的主题文本。该数据集涵盖了各种流派和文化背景，并包含了人工注释的主题关键词，具有不同层次的细粒度。通过采用不同的解释性理解抽象形式，我们进一步对自然语言处理任务进行了形式化，以研究故事的主要思想。经过与先进方法的大量实验，我们发现该任务对自然语言处理研究来说具有挑战性和重要性。该数据集和源代码已公开提供给研究社区。

Apr, 2024

LLM-TAKE：利用大型语言模型的主题感知关键词提取

利用大型语言模型（LLMs）生成基于上下文的关键词，提出了主题感知关键词提取（LLM TAKE）的框架，通过避免输出非信息或敏感关键词，并减少在 LLMs 中普遍存在的幻觉，为电子商务领域的产品生成提取和抽象主题的两个变体，通过对三个真实数据集的广泛实验证明，该模型能够通过比较基准模型提升准确性和多样性。

Dec, 2023

LLM-in-the-loop：利用大型语言模型进行主题分析

使用 LLM-in-the-loop 人工智能协作框架进行主题分析，能够在减少人力和时间需求的同时，获得与人工编码者相似的编码质量。

Oct, 2023

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023

通过整合 LLMs 揭示社交媒体上的潜在主题：以气候运动为例的案例研究

该研究介绍了一种用于揭示和分析社交媒体信息主题的新方法，通过机器与人员合作，利用大型语言模型，旨在深入探索社交媒体信息的主题细节，并发掘出多样的主题，研究结果表明该方法相较于传统的主题模型在发现潜在主题上更准确和可解释，同时揭示社交媒体中主题焦点随着现实事件的变化而变动，并指出这些主题如何针对不同人群进行定制。

Mar, 2024

利用大型语言模型支持实证法律研究中的主题分析

使用法律专家与大型语言模型（LLM）的协作框架进行主题分析和归纳编码相关研究，对刑事法院意见中的案件描述进行分析，发现典型盗窃案的类别，并证明 LLM 能有效产生初步编码、提高编码质量以及自动分类案件描述主题，为法律研究人员在整合 LLM 到他们的主题分析项目中提供指导。

Oct, 2023

使用统计推理和交互式可视化在学习的表示中发现概念

本文提出两种方法：多重假设检验和交互式可视化，来引导用户发现有意义的概念，通过模拟实验和真实数据的演示可视化，发现这些技术能够在无法预定义描述有意义概念的情况下为用户发现有关概念提供有前途的策略，但不完全自动化该过程。

Feb, 2022

TCIC: 图像描述中的主题概念跨语言与视觉学习

本文提出了一种将主题概念引入图像字幕生成的框架，使用记忆向量和 Transformer with Theme Nodes (TTN) 处理主题概念并进行图像和文本表示的重构，通过两种表示学习方法实现跨模态学习，实验结果表明该方法比其他最先进的模型更为有效。

Jun, 2021