强大多数,偏倚少数:通过大型语言模型实现综合信用评分
近期大规模语言模型 (LLM) 的发展在金融领域开创了人工智能应用的新可能性。本文提供了一份实用的调查报告,关注 LLM 在金融任务中的两个关键方面:现有解决方案和采用指南。首先,我们回顾了目前在金融领域中采用 LLM 的方法,包括通过零样本或少样本学习利用预训练模型,对领域特定数据进行微调,以及从头开始训练自定义 LLM。我们总结了关键模型并评估了它们在金融自然语言处理任务上的性能改进。其次,我们提出了一个决策框架,以帮助金融业专业人员根据数据、计算和性能需求选择合适的 LLM 解决方案。该框架提供了从轻量级实验到大规模投资自定义 LLM 的路径。最后,我们讨论了在金融应用中利用 LLM 所面临的限制和挑战。总的来说,该调查旨在综述最新技术并为负责任地应用 LLM 推动金融人工智能提供路线图。
Sep, 2023
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
大型语言模型在关键决策过程中被广泛应用,但其中的固有偏见可能导致歧视性结果。本文研究了人口属性和经济偏见在大型语言模型中微妙的关系,这是一个重要但鲜为人知的公平性领域。我们提出了一个新的数据集,包含一百万个英文句子,以系统地量化各个人口群体之间的经济偏见。研究发现,无论是 GPT-2 等成熟模型还是 Llama 2 和 Falcon 等最新模型,都存在普遍的经济偏见。我们证明了在考虑交叉性别时,这些偏见被显著放大,大型语言模型具有从姓名中提取多个人口属性并将其与特定的经济偏见相关联的能力。这项研究突出了在关键实际应用中部署这些强大模型时,积极和强大的偏见缓解技术的紧迫性。
May, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
使用大型语言模型(LLMs)在金融领域中的机器学习应用的最新进展,探讨了 LLMs 在各种金融任务上的应用,重点在于它们改变传统做法和推动创新的潜力,提供了进展和优势的讨论,包括上下文理解、迁移学习的灵活性和复杂情感检测等高级技术,以及将现有文献分类为主要应用领域,包括语言任务、情感分析、金融时间序列、金融推理、基于代理的建模和其他应用,详细介绍了每个应用领域的具体方法论,如文本分析、基于知识的分析、预测、数据增强、规划、决策支持和模拟。此外,还提供了与主流应用相关的数据集、模型资源和有用代码等资源,作为研究人员和实践者的参考。最后,概述了未来研究中的挑战和机遇,特别强调了该领域的几个独特方面。希望我们的工作能促进 LLMs 在金融领域的采用和进一步发展。
Jun, 2024
用人工智能在金融领域应用的一项新型框架 RiskLabs,通过整合各种金融数据和大语言模型来分析和预测金融风险。通过实证实验结果,我们展示了 RiskLabs 在金融市场的波动性和方差预测中的有效性,并讨论了大语言模型在这一领域中的关键作用。这些发现不仅对 AI 在金融领域的应用做出了贡献,也为在金融风险评估中应用大语言模型开启了新的途径。
Apr, 2024
本文通过三种场景下的评估:1)不提供指导,2)使用预先规定的评分标准,3)通过论文的两两对比,与实际学生论文一起使用大语言模型(LLM)进行评估,以降低教师的工作量。定量分析结果显示,使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性,尽管存在有关评估质量和稳定性的担忧。因此,对 LLM 的评估意见进行了定性分析,结果表明:1)LLM 可以达到教师的评估能力,2)LLM 评估中的差异应解释为多样性而非混乱,3)人类和 LLM 的评估可以不同且相互补充。综上所述,本文建议将 LLM 视为教师评估委员会的合作伙伴,并为进一步研究提供了方向。
May, 2024
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024