提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
基于大型语言模型的教育系统研究,评估其在教育能力方面的潜力,并提出统一和专家混合两种方法构建下一代智能教育系统,同时探讨了挑战和未来发展方向。
Dec, 2023
本文评估了 8 个公开可用的大型语言模型生成文本检测器的准确性,假阳性和弹性,并发现 CopyLeaks 是最准确的大型语言模型生成文本检测器,GPTKit 是减少假阳性的最佳大型语言模型生成文本检测器,而 GLTR 是最弹性的大型语言模型生成文本检测器。
Jul, 2023
当面临领域特定问题时,大语言模型(LLMs)可能会遇到问题,如知识遗忘、知识重复、知识幻觉以及知识毒性,这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题,建议对训练数据进行多样化,微调模型,提高透明度和可解释性,并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是,未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理,确保它们持有高的道义和道德标准。
Oct, 2023
该研究介绍了一项评估七种主要大型语言模型(LLMs)在商业教育领域的性能的基准测试,同时研究还证明了大多数 LLMs 在 GMAT 考试中的出色表现,特别是 GPT-4 Turbo 超越了研究生和商学院的平均分数。此研究确定了人工智能在教育领域的潜力,并强调了在发展和应用人工智能时的一些挑战和需求。
Jan, 2024
本文对基于大型语言模型的教育技术创新进行了系统文献综述和理论分析,并提出了以人为本的开发推荐,以解决基于大型语言模型的教育任务自动化可能带来的实际和伦理挑战。
Mar, 2023
评估网络安全 Capture-The-Flag(CTF)练习中使用大型语言模型(LLMs)的能力,并探讨它对课堂教学、CTF 挑战的影响以及相关的学术诚信问题。
Aug, 2023
通过评估大型语言模型在自动评分方面的可行性,并强调大型语言模型如何支持教育工作者验证评分程序,研究表明,虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角,但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作,需要人工监督。
Sep, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023