评估先进大型语言模型技术在机器人课程中的人工智能讲师的影响
利用人工智能模型替代人类作为教师,通过研究生成学生成绩的修订,构建了Curriculum Instruction TunING (CITING)方法,提高了大型语言模型的表达、深度和全面性能,在GPT-4评估上取得了79.4%的胜率。
Oct, 2023
本文介绍了通过使用Retrieval Augmented Generation(RAG)来改善问题求解性能的ARM-RAG(Auxiliary Rationale Memory for Retrieval Augmented Generation)系统,并展示了存储和检索推理链对于小学数学问题的性能具有积极影响。
Nov, 2023
通过细调、检索增强生成(RAG)和软提示等方法提高大型语言模型(LLMs)的性能的研究一般侧重于使用高度技术性或高成本的技术,使许多新发现的方法对非技术用户相对不可访问。在本文中,我们测试了未修改版本的GPT 3.5,经过细调的版本,以及相同的未修改模型在访问矢量化的RAG数据库时,单独或与基本的非算法软提示相结合。每种情况下,我们测试了模型回答一组100个与2021年9月之后(GPT 3.5的训练数据集结束的时间点)相关的事件问题的能力。我们发现,如果使用商业平台并应用默认设置以建立基准输出集,经过细调的模型优于GPT 3.5 Turbo,而RAG方法优于两者。应用软提示显著提高了每种方法的性能。
Nov, 2023
研究调查了大型语言模型(LLMs),特别是GPT-4和经过精细调整的GPT-3.5作为自动作文评分(AES)系统的工具的有效性。实验结果显示LLM-based AES系统具有卓越的准确性、一致性、泛化能力和可解释性,并超越传统评分模型,同时也提高人工评分员的表现。
Jan, 2024
通过精调模型和对称相似度、LLM评估和Rouge-L分数等指标的连续反馈循环来提高人工智能模型,利用金融数据集和检索增强生成技术(RAG),证明精调模型在问题回答能力方面能够超越零-shot LLMs的准确性。
Jan, 2024
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未来研究的几个有前途的方向。
May, 2024
利用大语言模型在现代教育领域创新的机会,通过研究提问型大语言模型、语法错误解释和人力资源面试评估,揭示了大语言模型在改变教育实践中的潜力和限制。
May, 2024
检索增强生成(RAG)是人工智能领域的重大进展,它将检索阶段与生成阶段相结合,后者通常由大型语言模型(LLMs)驱动。与常见做法相反,我们的研究表明,在我们的实验设置下,基础模型在RAG任务中表现比指导模型平均提高了20%。这一发现挑战了人们对于指导型LLMs在RAG应用中卓越性的普遍观点。进一步的调查揭示了更加微妙的情况,对RAG的基本方面提出了疑问,并提出了有关这一主题的更广泛讨论的需要。
Jun, 2024
大型语言模型在教育环境中得到越来越广泛的应用,以为学生和教师提供个性化支持。然而,这些模型的整合引起了有关算法偏见的担忧,可能加剧教育不公平问题。本综述从传统机器学习生命周期的角度出发,提供了大型语言模型从初始开发到在教育应用中定制预训练模型的全面生命周期图。文章讨论了在教育背景下可能出现的偏见来源,并解释了为什么传统机器学习中的偏见度量无法迁移到教育中由大型语言模型生成的内容,因为文本是高维的,可能存在多个正确的回答,而定制回答可能是教学上合理而非不公平的。这篇综述旨在阐明大型语言模型应用中的复杂偏见现象,并为其评估提供实际指导,以促进教育公平。
Jun, 2024