评估大型语言模型在可持续发展目标映射中的性能
该研究比较了一个专门编译的语言模型和通用模型(如OpenAI的GPT-3.5)在检测文本数据中可持续发展目标(SDGs)方面的效果。通过对大型语言模型(LLMs)进行关键性回顾,探讨了与偏见和敏感性相关的挑战。强调了需要专门的训练来进行准确、无偏的分析。使用公司描述数据集的案例研究揭示了GPT-3.5和专门的SDG检测模型之间的差异。虽然GPT-3.5具有更广泛的覆盖范围,但可能针对公司活动的相关性有限地识别出SDGs。相反,专门的模型更专注于高度相关的SDGs。强调了深思熟虑的模型选择的重要性,考虑任务需求、成本、复杂性和透明度。尽管LLMs非常灵活,但建议在需要精确性和准确性的任务中使用专门的模型。研究最后鼓励进一步研究在LLMs的能力与领域特定专业知识和可解释性之间找到平衡。
Jul, 2023
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现,研究发现这两个模型在多个任务上超过了 Llama 模型,尤其是在资源稀缺的语言中,其中 GPT-4 在更多的数据集上优于 PaLM2。然而,为了准确评估非英语语言上 LLM 的性能,我们需要解决数据污染等问题。
Nov, 2023
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2和GPT-4)在30种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现mT0在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的mT5)和GPT-4的表现。总体而言,由于LLaMa 2具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023
通过利用大型语言模型,本研究探讨了多样的可持续发展目标分类对文献计量数据注入的“数据偏见”,结果表明模型架构、分类出版物、微调过程和自然语言生成中存在广泛的任意性,从而对使用语言模型在研究实践中的应用引发了顾虑。
May, 2024
开源研究中心提供了MAP-Neo,一个具有可比较性的高性能透明双语语言模型,并公开了所有细节以复现该模型,以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。
May, 2024
我们研究了使用GPT-40,一种先进的大型语言模型(LLM),进行证据综述和系统评估任务的潜力。我们评估了GPT-40在全球适应性映射计划(GAMI)数据集中执行这些任务的有效性,结果表明在低专业的任务中,如地理位置识别,GPT-40可以达到很高的准确性,然而在中级和高级专业任务中,如利益相关方识别和适应性响应深度评估,其性能则不可靠。这些发现促进了设计评估工作流程的需求,既利用了GPT-40等模型的优点,也提供了改进它们在这些任务上表现的细化方法。
Jul, 2024
本研究解决了大语言模型(LLMs)在解读现有文献方面的有效性,特别是环境、社会和治理(ESG)因素与财务绩效之间关系的系统评价。研究发现,经过微调的GPT-4o Mini模型在准确性上平均超越基础LLMs达28.3%,显示了LLMs在帮助投资者和机构总结复杂ESG投资证据中的潜力,从而加快决策并提升市场效率。
Aug, 2024
本研究解决了在部署开源大型语言模型(LLMs)时对性能评估缺乏明确标准的问题。通过在波尔多大学的Inria中心进行多项测试,本文比较了不同尺寸模型(主要是Mistral和LLaMa)的性能,并利用vLLM库优化推理。研究结果为希望部署LLMs的公共和私人团体提供了重要信息,促进了这类模型在各应用领域的采用和使用。
Sep, 2024
本研究解决了大型语言模型(LLMs)在不同语言资源可用性下,反映国家社会价值观的能力差异问题。通过分析,我们发现数字资源的可用性对模型性能的影响显著,尤其是在低资源语言中性能下降明显,可能加剧数字鸿沟。研究提出了通过建立多语言LLMs和丰富多样的语言数据集进行微调的策略,以改善弱资源语言的表现。
Oct, 2024
本研究解决了使用大型闭源模型在社会科学研究中面临的透明度不足、数据隐私风险和高成本等问题。通过证明小型微调的开源大语言模型在性能上可以与ChatGPT-4等大型模型相媲美,本研究不仅揭示了训练集规模与微调效果之间的关系,还提出了结合开源与闭源模型优势的混合工作流程,提高了研究的透明性和可重复性。
Oct, 2024