- 非负矩阵分解与潜在狄利克雷分配之间的联系
非负矩阵因式分解也称为广义 Kullback-Leibler 散度 (NMF) 和隐含狄利克雷分配 (LDA) 是两种用于非负数据降维的流行方法。在这篇论文中,我们展示了在对分解的两个矩阵的列添加 $\ell_1$ 归一化约束和一个狄利克雷 - 揭示司法程序中的主题:使用主题建模对来自印度和英国的法律文件进行跨国研究
使用主题建模算法(如 Latent Dirichlet Allocation、非负矩阵分解和 Bertopic)对来自印度和英国的大量法律文件进行了案例注释,并对印度案例的时间线进行了分析,以识别不同司法管辖区中主要主题的演变。
- CoSD: 协作立场检测与对比异构主题图学习
Collaborative stance detection framework (CoSD) utilizes contrastive heterogeneous topic graph learning and collaborativ - 通过情感分析了解人们对人行道送货机器人的社会感知、互动和安全方面
通过对 YouTube 视频评论进行的情感分析研究,本文构建了多个文本情感分类模型,并在二分类和三分类任务中评估了模型的性能。研究结果表明,在情感分析的二分类任务中,使用词频 - 逆文档频率和 N-gram 的支持向量机模型获得最高的准确率 - 主题建模中的成员推断攻击和隐私
最近的研究表明,大型语言模型容易受到侵犯隐私的攻击,推断出训练数据的某些方面。然而,目前尚不清楚是否简单的生成模型(如主题模型)具有类似的弱点。本文提出了一种针对主题模型的攻击方法,可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果 - 航空事故报告的主题建模分析:LDA 和 NMF 模型的比较研究
本文比较两种突出的主题建模技术,潜在狄利克雷分配(LDA)和非负矩阵分解(NMF),在航空事故报告分析中的应用,以自动化和简化事故报告中潜在主题和模式的识别过程。LDA 在话题连贯性方面表现更好,NMF 则能够产生更为独特和细致的话题,以便 - COVID-19 相关论文的信息检索和提取工具
本研究的主要目标是开发一种工具,将信息检索和提取技术应用于 COVID-19 开放研究数据集(CORD-19),为研究人员提供更好的 COVID-19 相关论文搜索工具,帮助他们找到参考论文并突出显示文本中的相关实体。
- 移除低频词对 LDA 模型主题质量的影响分析
研究论文通过模拟实验,考察了删除不常见词汇对使用潜在狄利克雷分配估计主题质量的影响,结果表明剪枝是有益的,并且可以消除相当大比例的词汇。
- 用于课程开发与理解的文档排序功能分析
我们提出了多种技术,用于自动文档排序生成,用于课程开发和在学习、培训和其他内容排序应用中创建最佳阅读顺序。我们通过使用不同方法的文档相似度和潜在狄利克雷分配(LDA)生成的主题熵,推进了两个主要技术。我们的结果表明,通过我们的方法无法预测我 - 机器学习中的创新和词汇使用模式
本研究深入研究了机器学习研究演变的动态景观,利用隐狄利克雷分配方法识别了在机器学习领域中出现的关键主题和基本概念,通过综合分析追踪了这些主题的演化轨迹,并利用 Kullback-Leibler 散度度量方法量化研究贡献的新颖性和多样性,从而 - MM基于 Transformer 处理的模糊主题建模新方法
基于软聚类和文档嵌入的模糊主题建模对比传统的 Latent Dirichlet Allocation(LDA)模型,在新闻发布监测中,得到了更加自然的结果。
- 迭代收敛式分布式机器学习中参数服务器的慢工问题实证研究
当前研究旨在测试当前延迟问题缓解技术在不同重要的迭代收敛机器学习算法(包括矩阵分解、多项逻辑回归和潜在狄利克雷分布)上的有效性,并通过使用 FlexPS 系统实现了实验,该系统采用参数服务器架构进行最新的系统实现。本实验采用批同步并行计算模 - SAP-sLDA:探索非结构化文本的可解释界面
通过低维投影对文本语料库进行探索是一种常见方法,我们提出了一种半监督的人类参与的基于 LDA 的方法,用于学习在低维投影中保留文档之间语义相关性的主题。
- 通过潜在狄利克雷分配和自然语言处理进行简历评估以实现有效的候选人选择
我们提出了一种使用潜在狄利克雷分配(LDA)和 SpaCy 中的实体检测进行简历评分的方法。该方法首先使用 SpaCy 的命名实体识别(NER)从简历中提取相关实体,例如教育、经验和技能。然后,LDA 模型使用这些实体为简历评分,为每个实体 - 基于社交媒体属性的关键词检测:Sina 微博上的 IDF-LDA 模型应用
本文提出了一种基于 IDF 和 LDA 模型相结合的方法,以更好地应对社交媒体数据的不同属性,通过基于点赞数、评论数和转发数等属性来加权每个文档的重要性,从而有效地检测出越来越具有代表性的关键词,实验证明该方法在各种评估指标,包括多个问题设 - 使用潜在狄利克雷分配方法进行的关于冠状病毒的瑞典报纸文章主题建模: 以案例研究为基础
该研究使用 Latent Dirichlet Allocation (LDA) 方法建模了瑞典报纸文章关于冠状病毒的主题变化,旨在支持社会经济影响研究以及临床和医疗保健分析等领域的话题建模应用。
- EMNLPBERTopic 在多领域短文本上的泛化实验
本研究探讨了在短的多领域文本中如何运用 BERTopic 算法进行主题建模,并发现与 Latent Dirichlet Allocation 相比,BERTopic 在主题连贯性和多样性方面的表现更好。我们进一步分析了 BERTopic 所 - 探索社会健康因素的临床社工笔记主题建模
通过对 0.95 百万份社会工作者记录的词频分析和 LDA 主题建模分析,本文确定了社会卫生风险因素的 11 个主题,包括财务状况、虐待史、社会支持、死亡风险和心理健康等,证明了社会工作者提供了个人社会决定因素上富有独特性和不可获得性的信息 - 气候政策追踪器:自动分析公共气候政策的通道
本研究使用基于潜在狄利克雷分配的自动摘要和分析管道,对欧盟 27 个成员国在 2021 年至 2030 年期间制定的 10 年期国家能源和气候计划(NECPs)进行分析,旨在分析政策框架以便实现更好的公民治理和气候政策参与。
- SimLDA:主题模型评估工具
本文介绍了一种新的变分信息传递算法,名为 ALBU,用于在有限数据情况下识别 LDA 模型中的方面,并在推特和新闻组数据集上与 VB 算法进行比较,展示 ALBU 算法在小型数据集表现出更高精度的潜在分布学习能力。