个人财务问题主题检测

KDDOct, 2021

Towards Theme Detection in Personal Finance Questions

John Xi Qiu, Adam Faulkner, Aysu Ezen Can

TL;DR本文提出了一种通话中心主题检测的方法，该方法捕捉到一个问题中多个主题的发生，并提出了一种以句子而非问题为级别的编码和聚类方法，以及一种多类分类任务的比较，表明了所提出的方法在其上表现出色。

Abstract

Banking call centers receive millions of calls annually, with much of the information in these calls unavailable to analysts interested in tracking new and emerging call center trends. In this study we present an approach to call center →

call center theme detection sentence encoding multiclass classification cluster

发现论文，激发创造

基于 BERT 嵌入的消费者金融保护局数据主题建模方法

本研究通过使用新方法 BERTopic 对消费者金融保护局（CFPB）数据进行基于句子嵌入的主题提取，通过对比 LDA 和 LSA，证实 BERTopic 能够更有意义且更具多样性地生成主题。此外，使用特定于领域的预训练嵌入（FinBERT）可以进一步提高主题品质。同时，本研究通过 c_v 和 UMass 等参数对主题准确性进行了评估。

May, 2022

从自然出现的商业对话中提取相似问题

我们使用经过适当调整的表示方法和少量示例来对商业用户感兴趣的问题进行分组，并制作可用于数据探索或员工培训的可视化。

Jun, 2022

复杂问答：无监督学习方法和实验

本研究探讨了一种基于多篇文献的主题导向信息压缩技术，采用实证方法和两种无监督机器学习技术，比较它们的效果，同时通过提取不同的词汇特征和局部搜索技术，学习各种特征的权重值，最终实现了基于查询的自动摘要产生。

Jan, 2014

金融文本数据的多标签主题模型

本研究提出了一种适用于金融文本的多标签主题模型，使用新的金融多标签数据库进行训练，并通过分析股市反应来研究不同主题之间的差异以及协同出现主题对股市反应的影响，模型的最佳表现可达到超过 85% 的宏观 F1 得分。

Nov, 2023

用于问答系统中语义检索的多任务句子编码模型

本文提出了一个多任务句子编码模型 (MSEM) 用于 Paraphrase Identification（PI）问题。我们使用连接图表示句子之间的关系，并应用多任务学习模型来解决句子匹配和意图分类问题。此外，我们实现了一个通用的语义检索框架，结合了我们提出的模型和近似最近邻（ANN）技术，可以在在线服务中快速地找到最相似的问题。实验结果表明，我们提出的方法与现有的句子匹配模型相比具有优越性。

Nov, 2019

银行领域的主题建模方法比较

该研究使用了 KernelPCA 和 K-means Clustering 结合 BERTopic 架构，比较了主题建模方法，并在尼日利亚银行客户的推文数据集上展示了一致性得分为 0.8463 的连贯主题。

Feb, 2024

大型文本数据中的交互式概念学习和主题发现

本研究提出了一种交互式框架，该框架通过接收并编码领域相关的概念和专家反馈来维护领域专家对学习的控制，从而在自动化和手动编码之间取得平衡。

May, 2023

数据驱动的金融领域统计和自然语言处理技术的内容创作

本文提出了一个通过摘要网络和层次聚类技术来提取客户提问的框架，同时对客户的问题进行语法和语义相似度分析，并采用 TF-IDF 和 BERT 计算相似性得分。

Sep, 2021

通过可扩展的主题嵌入从连续新闻流中无监督地发现故事

该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现，并在真实新闻数据集上进行了全面评估，结果表明 USTORY 的性能比基线更高，并且具有鲁棒性和可扩展性。

Apr, 2023

使用句子编码器进行零样本多标签主题推理

利用句子编码器进行零样本主题推断任务时，Sentence-BERT 表现出与其他编码器相比的优越性能，而在效率是首要考虑因素时，通用句子编码器是首选；这一结论得到了对七个不同数据集的广泛实验的支持。

Apr, 2023