个人财务问题主题检测
本研究通过使用新方法 BERTopic 对消费者金融保护局(CFPB)数据进行基于句子嵌入的主题提取,通过对比 LDA 和 LSA,证实 BERTopic 能够更有意义且更具多样性地生成主题。此外,使用特定于领域的预训练嵌入(FinBERT)可以进一步提高主题品质。同时,本研究通过 c_v 和 UMass 等参数对主题准确性进行了评估。
May, 2022
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014
本研究提出了一种适用于金融文本的多标签主题模型,使用新的金融多标签数据库进行训练,并通过分析股市反应来研究不同主题之间的差异以及协同出现主题对股市反应的影响,模型的最佳表现可达到超过 85% 的宏观 F1 得分。
Nov, 2023
本文提出了一个多任务句子编码模型 (MSEM) 用于 Paraphrase Identification(PI)问题。我们使用连接图表示句子之间的关系,并应用多任务学习模型来解决句子匹配和意图分类问题。此外,我们实现了一个通用的语义检索框架,结合了我们提出的模型和近似最近邻(ANN)技术,可以在在线服务中快速地找到最相似的问题。实验结果表明,我们提出的方法与现有的句子匹配模型相比具有优越性。
Nov, 2019
该研究使用了 KernelPCA 和 K-means Clustering 结合 BERTopic 架构,比较了主题建模方法,并在尼日利亚银行客户的推文数据集上展示了一致性得分为 0.8463 的连贯主题。
Feb, 2024
本文提出了一个通过摘要网络和层次聚类技术来提取客户提问的框架,同时对客户的问题进行语法和语义相似度分析,并采用 TF-IDF 和 BERT 计算相似性得分。
Sep, 2021
该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现,并在真实新闻数据集上进行了全面评估,结果表明 USTORY 的性能比基线更高,并且具有鲁棒性和可扩展性。
Apr, 2023
利用句子编码器进行零样本主题推断任务时,Sentence-BERT 表现出与其他编码器相比的优越性能,而在效率是首要考虑因素时,通用句子编码器是首选;这一结论得到了对七个不同数据集的广泛实验的支持。
Apr, 2023