- 使用大型语言模型自动评估主题模型:读懂茶叶渣
我们提出了 WALM (Words Agreement with Language Model) 这一新的主题建模评估方法,综合考虑语义质量,旨在提供一种全面性评估。WALM 与人员判断一致,可作为现有评估方法的补充,为主题建模带来了新的视 - 迈向透明:通过视觉主题建模和语义框架探索 LLM 训练数据集
利用人工智能和认知科学改善文本数据集的提炼,我们展示了利用主题建模和二维地图学技术增加数据集透明度,以及将相同主题建模技术应用于偏好数据集来加速微调过程并提高模型在不同基准测试中的能力。通过框架分析揭示训练文本中现有偏见的情况,从而呼吁更好 - 大型语言模型下的短文本主题建模
通过使用大型语言模型 (LLMs) 进行主题建模的两种方法,即并行提示和顺序提示,本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战,并证明这些方法能够识别出比现有方法更连贯的主题,同时保持引发主题的多样性。此外,本研究发现所推断的主 - 从地下黑客论坛推断关于漏洞利用的讨论主题
通过主题建模分析并发现地下黑客论坛中讨论的漏洞的关键主题,从而开发出一种基于机器学习的模型,能够自动检测和分类地下黑客论坛中与漏洞相关的讨论。
- COLING利用主题建模识别犹太大屠杀证言中的叙述模式和异常情况
这篇论文利用自然语言处理技术研究了大规模的大屠杀幸存者见证集,将见证转化为结构化问题和答案,通过主题建模方法发现了关键主题并分析了不同年龄和性别组之间的差异和相似之处,进而揭示了见证集中主题的演化和幸存者经历中的潜在变异。
- 基于命名实体识别和主题建模的社交媒体中自然灾害定位和评估的解决方案
在这篇论文中,我们提出了一个三步解决方案,旨在充分利用社交媒体内容和自然语言处理技术,实现灾害信息学中的相关分类、地点提取和主题建模,以应对社交媒体内容中的挑战。
- 社交媒体与人工智能在可持续城市和社会中的运用:一个水质分析案例
提出了一种自然语言处理框架,通过文本分类和主题建模的方法,自动收集并分析社交媒体中与水相关的帖子,以便进行数据驱动决策。
- 利用 LLMs-in-the-Loop 策略揭示社交媒体信息中的潜在论证
利用大型语言模型(LLMs)从社交媒体消息中提取潜在观点的通用 LLMs-in-the-Loop 策略,旨在解决社交媒体话语研究中手动编码方法的耗时和高成本问题。
- ACLGINopic:基于图同构网络的主题建模
通过使用基于图同构网络的 GINopic 主题建模框架,我们展示了其相对现有主题模型的有效性,并突出了其推进主题建模的潜力。
- 动态交互主题表示
GPTopic 是一个利用大型语言模型创建动态、交互式主题表示的软件包,为用户提供直观的聊天界面,使主题建模更加易于访问和全面。
- ICLR主题建模的多目标对比优化
通过引入一种新的基于主题向量集合的对比学习方法,并将其明确地作为基于梯度的多目标优化问题,本研究旨在实现一个平衡 ELBO 和对比目标之间的权衡的帕累托稳定解,广泛的实验证明我们的框架在主题连贯性、主题多样性和下游性能方面始终产生更高性能的 - AlbNews:用于阿尔巴尼亚语主题建模的标题语料库
本论文介绍了 AlbNews,这是一个包含 600 个主题标记的阿尔巴尼亚新闻标题和 2600 个未标记标题的集合,可用于进行主题建模研究。我们报告了一些传统机器学习分类器使用 AlbNews 样本进行训练的初始分类分数。结果显示基本模型超 - 多语言变压器和 BERTopic 用于短文本主题建模:塞尔维亚案例
该论文采用 BERTopic 主题建模技术对塞尔维亚语的短文本进行了首次应用,结果表明在部分预处理的情况下,BERTopic 可以提供信息丰富的主题。与 LDA 和 NMF 相比,BERTopic 提供了更多有信息量的主题,并在主题数不受限 - COVID-19 相关论文的信息检索和提取工具
本研究的主要目标是开发一种工具,将信息检索和提取技术应用于 COVID-19 开放研究数据集(CORD-19),为研究人员提供更好的 COVID-19 相关论文搜索工具,帮助他们找到参考论文并突出显示文本中的相关实体。
- AHAM: 适应、帮助、询问、建模 -- 为文献挖掘提取 LLMs
利用 AHAM 方法和度量指引领域相关的 BERTopic 主题建模框架的适应,通过 LLaMa2 生成式语言模型,通过与领域专家的合作设计提示,以 LLM 为指导,在文献挖掘中生成主题定义。该方法在文献发现的科学论文语料库上进行了评估,并 - 分析 MPox 疫情期间公众反应、认知和态度:基于推特话题建模的发现
这篇论文通过对推特上关于 2022 年 MPox 疫情爆发期间发布的 601,432 条推文进行主题建模,得出了四个主要主题,并发现在这个时间范围内,关于 MPox 的观点和看法是推特上最流行的话题。
- AAAITopic-VQ-VAE: 基于潜在码书的灵活话题引导文档生成
该论文介绍了一种利用隐变量量化自动编码器 (VQ-VAE) 从语言预训练模型中离散地提取丰富信息的新颖主题建模方法,并提出了一种新的生成主题模型 Topic-VQ-VAE (TVQ-VAE),可以逆向生成与相应隐变量量化编码书相关的原始文档 - 大型语言模型用于主题建模
我们提出了 PromptTopic,一种利用大型语言模型的先进语言理解能力从句子级别提取主题并将其汇总和压缩为预定数量的主题,从而消除了手动参数调整的需求并提高了提取主题的质量。我们在三个完全不同的数据集上与最先进的基线模型进行了比较,并展 - 情感分类中的主题偏见
我们研究了情绪语料库中存在的主题偏差以及相关的建模方法,并发现通过对抗性修正可以缓解此问题。我们的研究指出现有情绪语料库存在问题,并且需要更具代表性的资源来进行情感概念从文本中预测的公平评估。
- 在任务导向对话数据集中寻找开放领域对话片段
结合话题建模,研究 Schema-Guided Dialogues 和 MultiWOZ 的训练集,发现社交对话序列的存在,进一步推动了如何将闲聊融入任务导向对话的研究。