大语言模型在系统评价中的有效性
该研究比较了一个专门编译的语言模型和通用模型(如OpenAI的GPT-3.5)在检测文本数据中可持续发展目标(SDGs)方面的效果。通过对大型语言模型(LLMs)进行关键性回顾,探讨了与偏见和敏感性相关的挑战。强调了需要专门的训练来进行准确、无偏的分析。使用公司描述数据集的案例研究揭示了GPT-3.5和专门的SDG检测模型之间的差异。虽然GPT-3.5具有更广泛的覆盖范围,但可能针对公司活动的相关性有限地识别出SDGs。相反,专门的模型更专注于高度相关的SDGs。强调了深思熟虑的模型选择的重要性,考虑任务需求、成本、复杂性和透明度。尽管LLMs非常灵活,但建议在需要精确性和准确性的任务中使用专门的模型。研究最后鼓励进一步研究在LLMs的能力与领域特定专业知识和可解释性之间找到平衡。
Jul, 2023
这项研究通过对GPT-4在标题/摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然GPT-4在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对GPT-4进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM可以与人工表现媲美。
Oct, 2023
最近,大型语言模型的评估已成为一个热门的研究领域。本文分析了不同评估方法,比较了各种标准和评分系统,在多个任务和测试中使用了不同的评估者和评分方法,提出了一个新的数据集LLMEval,并对20个大型语言模型进行了评估,得出了10个结论,为将来的语言模型评估提供了一些启示。
Dec, 2023
在精密型行业中,通过对大型语言模型的调查,本文详细探讨了这些模型的方法、应用、挑战和未来机遇,并强调了大型语言模型在医疗保健、金融和法律领域中提高诊断和治疗方法、创新金融分析和完善法律解释和遵从策略方面的重要作用。此外,我们还对这些领域中大型语言模型应用的伦理问题进行了批判性检查,并指出了现有的伦理关切和尊重监管规范的透明、公正和强大的人工智能系统的需求。通过对当前文献和实际应用的全面综述,我们展示了大型语言模型的变革性影响,并勾勒了跨学科合作、方法论进步和伦理警觉的必要性。通过这种视角,我们旨在引发对话,激励未来致力于最大化大型语言模型的利益并降低其在这些精密型行业中的风险的研究。为了促进对这一主题中大型语言模型的未来研究,我们还提供了一个阅读列表,跟踪该主题下的最新进展,链接如下:https://github.com/czyssrs/LLM_X_papers。
May, 2024
该研究对中美两国大型语言模型在英语和中文环境下进行了全面比较评价,发现GPT 4-Turbo在英语环境中居于领先地位,而Ernie-Bot 4在中文环境中表现出色。研究强调了语言和任务差异对大型语言模型性能的影响,强调在模型开发中的语言和文化细微差别的重要性,并指出中美大型语言模型的相互补充性,强调了中美之间在推进大型语言模型技术方面的合作价值。该研究还为政策制定者和企业关于战略性大型语言模型投资和发展提供了有价值的见解,并展望了未来的研究方向,包括多模态能力和商业应用方面的评估。
May, 2024
该文章介绍了使用GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估LLM-based自动化工具方面仍然存在欠缺的问题。
May, 2024
使用大型语言模型(LLMs)在金融领域中的机器学习应用的最新进展,探讨了LLMs在各种金融任务上的应用,重点在于它们改变传统做法和推动创新的潜力,提供了进展和优势的讨论,包括上下文理解、迁移学习的灵活性和复杂情感检测等高级技术,以及将现有文献分类为主要应用领域,包括语言任务、情感分析、金融时间序列、金融推理、基于代理的建模和其他应用,详细介绍了每个应用领域的具体方法论,如文本分析、基于知识的分析、预测、数据增强、规划、决策支持和模拟。此外,还提供了与主流应用相关的数据集、模型资源和有用代码等资源,作为研究人员和实践者的参考。最后,概述了未来研究中的挑战和机遇,特别强调了该领域的几个独特方面。希望我们的工作能促进LLMs在金融领域的采用和进一步发展。
Jun, 2024
本研究针对印度尼西亚政府财务数据和法规的复杂性和动态性对决策造成的挑战,探索了大型语言模型(LLMs)的应用。通过迭代开发KemenkeuGPT,结合Retrieval-Augmented Generation(RAG)技术,研究发现该模型的准确性从35%提高到61%,显示出其作为决策工具的潜力,有望显著提升基于证据的政策制定和公共服务。
Jul, 2024
本研究解决了评估学术期刊文章质量这一耗时且关键的任务,探讨了大型语言模型在此过程中的作用。研究发现,使用文章标题和摘要作为输入,ChatGPT可提供与人工评分高度相关的质量评分,表明这一方法在研究质量评估中具备潜在的应用价值。
Aug, 2024
本研究旨在总结大型语言模型(LLMs)在科学综述生成过程中的应用,发现了众多文献综述阶段可被自动化,并评估了当前相关研究的进展。研究表明,GPT-based LLM在文献综述自动化中占据主导地位,而现有文献中真正应用LLM的综述仅占少数,但预示着LLMs将在未来改变科学综述的开展方式。
Sep, 2024