基于原则的指导是提问 LLaMA-1/2 和 GPT-3.5/4 所需的全部

Dec, 2023

基于原则的指导是提问 LLaMA-1/2 和 GPT-3.5/4 所需的全部

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

PDF

Sondos Mahmoud Bsharat, Aidar Myrzakhan, Zhiqiang Shen

TL;DR本研究介绍了 26 个指导原则，旨在简化大规模语言模型查询和提示的过程，通过对 LLaMA-1/2、GPT-3.5/4 等模型的广泛实验验证所提原则在指令和提示设计上的有效性，以提供更好的指导给从事大规模语言模型提示研究的学者。

Abstract

This paper introduces 26 guiding principles designed to streamline the process of querying and prompting →

guiding principles querying prompting large language models instructions design

发现论文，激发创造

ExpertPrompting：指导大规模语言模型成为卓越专家

本文介绍了一种使用 ExpertPrompting 技术的方法，通过 In-Context Learning 实现了定制化的指令，并将其用于训练基于 GPT-3.5 的 ExpertLLaMA 模型，实现了与 ChatGPT 相近的对话效果。

May, 2023

利用基于提示的技术来生成学校级问题的大型语言模型的力量

利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法，利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容，创建了一个名为 EduProbe 的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法，并使用预训练的大型语言模型进行了微调。通过自动评估，我们发现 T5（使用长提示）表现优于其他模型，但仍然低于人类基准。在人类评估标准下，TextDavinci-003 通常在各种提示设置下表现更好。即使在人类评估标准下，问题生成模型也大多低于人类基准。

Dec, 2023

运用 GPT-3 驱动教学代理系统培养儿童的好奇心提问技能

本研究借鉴自然语言处理和大型语言模型相结合的方法，采用自然文本提示来制作课程内容，有效提高了儿童好奇心问题的生成能力，同时发现开放式训练内容更适合培养好奇心问题发现的技能。

Nov, 2022

探索大型语言模型在初级编程课程中生成追踪代码问题的潜力

我们探讨了在初级编程课程中应用大型语言模型（LLM）生成代码追踪问题的方法，通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示，并建立了一套人工评价指标，用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了 LLMs 在生成多样化代码追踪问题方面的能力和潜力，并提供了一个独特的人工和 LLM 生成的追踪问题数据集，为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于 LLMs 在教育环境中潜在用途的持续对话做出了贡献。

Oct, 2023

面向目标导向的大型语言模型提示：综述

大型语言模型在各种下游任务中表现出显著性能，而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究，突出设计提示的局限性，同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维，我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外，我们引入了一个新的分类法，将目标导向的提示方法分为五个相互关联的阶段，并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向，希望进一步强调和推动目标导向的提示工程。

Jan, 2024

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024

UPAR：提升大型语言模型能力的康德启发式提示框架

借鉴康德的先验哲学，我们提出了 UPAR 提示框架，通过四个阶段（理解、计划、执行、反思）模拟人类认知结构，在提取结构化信息、先前规划解决方案、按计划执行和自我反思方面，显著增强了 LLM 推理的可解释性和准确性。此外，我们的工作为现有提示技术建立了认识论基础，为这些方法的系统整合提供可能。在 GSM8K 的具有挑战性的子集中，与 COT 基线的 22.92% 相比，我们的方法使准确率提升至 58.33%；在因果判断任务中，准确率从 67.91% 提高到 75.40%。

Sep, 2023

问我任何事：一种激发语言模型的简单策略

使用 ASK ME ANYTHING（AMA）方法，通过开发多种不同的有效提示信息并进行权衡，采用弱监督程序结合这些提示信息来创造性地提高了大型语言模型的性能。该方法可以使开源 GPT-J-6B 模型在 15 个流行基准测试中优于 few-shot GPT3-175B 模型。

Oct, 2022

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用 LLM 的最佳实践，如利用模板，微调，处理意外输出，实施 LLM 链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制 GPT-4 从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力，以增强教育成果。

May, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023