大型文本数据中的交互式概念学习和主题发现
我们引入概念归纳,一种从非结构化文本中提取明确纳入标准的高级概念的计算过程,该过程通过使用大型语言模型不断合成抽样文本并提出具有不断广泛性的可解释概念。我们在具有毒性的在线评论数据集上实例化了 LLooM,并通过技术评估和四个分析场景的研究发现,LLooM 的概念在质量和数据覆盖方面优于传统的主题模型,并且在专家案例研究中能够帮助研究人员发现以前未注意到的见解。
Apr, 2024
该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现,并在真实新闻数据集上进行了全面评估,结果表明 USTORY 的性能比基线更高,并且具有鲁棒性和可扩展性。
Apr, 2023
本研究关注阅读理解的新一级别 —— 解释性理解,特别强调推断叙述文本的主题。我们介绍了第一个专门设计用于解释性理解教育叙述文本的数据集,并提供相应的主题文本。该数据集涵盖了各种流派和文化背景,并包含了人工注释的主题关键词,具有不同层次的细粒度。通过采用不同的解释性理解抽象形式,我们进一步对自然语言处理任务进行了形式化,以研究故事的主要思想。经过与先进方法的大量实验,我们发现该任务对自然语言处理研究来说具有挑战性和重要性。该数据集和源代码已公开提供给研究社区。
Apr, 2024
利用大型语言模型(LLMs)生成基于上下文的关键词,提出了主题感知关键词提取(LLM TAKE)的框架,通过避免输出非信息或敏感关键词,并减少在 LLMs 中普遍存在的幻觉,为电子商务领域的产品生成提取和抽象主题的两个变体,通过对三个真实数据集的广泛实验证明,该模型能够通过比较基准模型提升准确性和多样性。
Dec, 2023
使用 LLM-in-the-loop 人工智能协作框架进行主题分析,能够在减少人力和时间需求的同时,获得与人工编码者相似的编码质量。
Oct, 2023
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出优秀的性能结果。
Mar, 2023
该研究介绍了一种用于揭示和分析社交媒体信息主题的新方法,通过机器与人员合作,利用大型语言模型,旨在深入探索社交媒体信息的主题细节,并发掘出多样的主题,研究结果表明该方法相较于传统的主题模型在发现潜在主题上更准确和可解释,同时揭示社交媒体中主题焦点随着现实事件的变化而变动,并指出这些主题如何针对不同人群进行定制。
Mar, 2024
使用法律专家与大型语言模型(LLM)的协作框架进行主题分析和归纳编码相关研究,对刑事法院意见中的案件描述进行分析,发现典型盗窃案的类别,并证明 LLM 能有效产生初步编码、提高编码质量以及自动分类案件描述主题,为法律研究人员在整合 LLM 到他们的主题分析项目中提供指导。
Oct, 2023
本文提出两种方法:多重假设检验和交互式可视化,来引导用户发现有意义的概念,通过模拟实验和真实数据的演示可视化,发现这些技术能够在无法预定义描述有意义概念的情况下为用户发现有关概念提供有前途的策略,但不完全自动化该过程。
Feb, 2022
本文提出了一种将主题概念引入图像字幕生成的框架,使用记忆向量和 Transformer with Theme Nodes (TTN) 处理主题概念并进行图像和文本表示的重构,通过两种表示学习方法实现跨模态学习,实验结果表明该方法比其他最先进的模型更为有效。
Jun, 2021