基于 NLP 聚类和机器学习的信用风险模型问题分析：来自验证报告的洞见

Jun, 2023

基于 NLP 聚类和机器学习的信用风险模型问题分析：来自验证报告的洞见

Analyzing Credit Risk Model Problems through NLP-Based Clustering and Machine Learning: Insights from Validation Reports

PDF

Szymon Lis, Mariusz Kubkowski, Olimpia Borkowska, Dobromił Serwa, Jarosław Kurpanik

TL;DR本文旨在探究如何使用聚类方法和机器学习算法，包括自然语言处理（NLP），通过验证报告中所包含的文本信息，来识别和分类信用风险模型中存在的问题。作者使用了嵌入式生成以及四个不同的预训练模型来分析 645 个所得发现的标题和观察结果，并使用各种聚类方法来将具有相似特征的发现进行分组，从而更有效地识别和分类每个验证维度和严重程度中存在的常见问题。在分析结果中，作者证明了聚类和机器学习可以有效地分析验证报告中的文本信息，并提供了信用风险模型开发和验证中遇到问题的洞见。

Abstract

This paper explores the use of clustering methods and machine learning algorithms, including Natural Language Processing (nlp), to identif

clustering machine learning credit risk models validation reports nlp

发现论文，激发创造

信贷风险与大型语言模型：从 P2P 贷款的贷款描述中构建风险指标

通过利用借款人在贷款申请过程中提供的文本描述，本文提出了一种新颖的方法来解决信息不对称的挑战。我们运用大型语言模型（LLM）来处理这些文本描述，通过转移学习将 LLM 适应到特定的任务中，从而显著改善信用风险分类器的性能。然而，基于 LLM 的系统的内在不透明性以及潜在偏见的不确定性，凸显了对监管框架的重要考虑和用户信任相关的担忧，并在 P2P 借贷和人工智能的动态领域中开辟了新的研究途径。

Jan, 2024

自然语言处理数据集机器学习模型评估与特征重要性分析

该研究使用机器学习模型，对埃塞俄比亚一家私人银行提供的数据进行分析，发现 XGBoost 模型在 KMeans SMOTE 过采样数据上取得了最高的 F1 分数，而评估信贷风险时，申请人的年龄、就业年限和总收入等因素比抵押相关的因素更为重要。

Aug, 2022

信用卡评分预测基于机器学习模型的新数据集

本研究利用机器学习模型对信用卡违约进行预测，通过一系列实验和数据处理技术，结果表明多层感知器神经网络（MLP）在预测信用卡违约和评估潜在风险方面表现优越，帮助银行等金融机构更早地预测贷款违约。

Oct, 2023

一种基于云端的机器学习流水线，用于高效地从客户评论中提取洞察信息

本文介绍了一种基于云的系统，使用机器学习方法集成到管道中，能够从客户评论中提取洞察力，其复合模型使用基于 transformer 的神经网络、基于向量嵌入的关键字提取和聚类，可以更好地满足高效信息提取、提取信息的主题建模和用户需求的要求，并且比现有的主题建模和关键字提取解决方案取得更好的结果。该方法使用公开可用的数据集进行基准测试，并与其他最先进的方法进行验证和比较。

Jun, 2023

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

金融欺诈检测的文本数据挖掘：深度学习方法

使用深度学习的方法对金融欺诈文本进行自然语言处理的二元分类任务，并且通过不同种类的神经网络模型，包括多层感知机、RNN、LSTM 和 GRU 等，进行了准确性比较，为金融欺诈检测领域提供了有价值的见解。

Aug, 2023

自然语言处理在金融风险检测中的应用

应用自然语言处理（NLP）技术在金融风险检测方面的研究，构建了一个基于 NLP 的金融风险检测模型，旨在识别和预测金融文件和通信中的潜在风险。通过实证研究验证，该模型在风险识别和预测方面表现出色，并为金融机构提供有效的风险管理工具。该研究利用先进的 NLP 技术，为金融风险管理领域提供了有价值的参考，提高了风险检测的准确性和效率。

Jun, 2024

基于自然语言处理的原始研究文章分类之外

本研究提出了一种针对未知类别的科学文献的文本分类的新方法，使用自然语言处理技术。该研究利用预训练的语言模型（特别是 SciBERT）从 ArXiv 数据集的摘要中提取有意义的表示。文本分类使用 K-Means 算法进行，并根据 Silhouette 得分确定最佳聚类数。结果表明，所提出的方法比传统的 arXiv 标签系统更有效地捕捉主题信息，从而改善了文本分类。该方法为科学研究文献快速增长的领域提供了更好的导航和推荐系统的潜力。

Sep, 2023

分析客户评论中主题建模技术的力量：比较分析

在线社交网络平台的指数增长导致了大量的用户生成文本内容，这包括评论和评价。为了解决这一挑战，机器学习和自然语言处理算法已经应用于分析在线可用的大量文本数据。在最近几年，主题建模技术在该领域中获得了显著的流行度。本研究全面研究和比较了特定应用于客户评价的五种常用主题建模方法，通过在实际场景中展示它们在检测重要主题方面的益处，旨在突出它们的功效。我们通过精心选择两个文本数据集来评估这些主题建模方法的性能，评估是基于标准的统计评估指标如主题连贯性得分。我们的发现揭示了 BERTopic 在提取有意义的主题方面始终表现出色并取得了良好的结果。

Aug, 2023

机器学习中漏洞检测的影响因素解析

研究了软件项目中不同因素对于识别漏洞的准确性的影响，通过挖掘软件库中的漏洞并使用机器学习技术进行自动检测。通过实验发现，将基于词袋模型的签名与随机森林模型相结合，在 17 个真实世界项目中能提高 4% 的检测准确率，并观察到在跨域中转移漏洞签名的局限性。

Jun, 2024