- 利用大型语言模型进行可行课程评估 —— 学生对讲师的反馈
使用开源生成型 AI 合成学生反馈的事实性、可操作性和恰当性总结,为教师提供成本效益的支持,以增强教学实践的可行性。
- 公平稳定的在线分配的主动学习
我们探索了一种用于动态公平资源分配问题的主动学习方法,该方法假设在在线资源分配过程的每个时期,仅从选择的代理人子集中获取反馈。尽管存在这种限制,我们提出的算法在包括资源分配问题中常用的公平度量和匹配机制中的稳定性考虑等各种度量中,提供了与时 - LLM 能够自我纠错的实际时机研究:对 LLM 自我纠错的关键调查
通过对大型语言模型(LLMs)进行自我纠正来提高其回答效果是一种改进方法。本文对自我纠正的研究条件进行了关键性调查,发现以往研究往往缺乏详细定义的研究问题,使用非实用的框架和过度评估自我纠正。通过对新分类的研究问题进行关键性调查,我们发现: - ISQA: 科学摘要的信息性事实反馈
我们提出了迭代性的逐渐精化的信息科学问答(ISQA)反馈方法,该方法遵循人类学习理论,利用模型生成的正负反馈来增强科学概述的真实性,通过迭代细化概述探索语句的基本原理。这种 ISQA 以细粒度的方式进行,通过要求概述代理在正反馈中加强验证的 - 反馈是否能够增强大型视觉 - 语言模型的语义基础能力?
通过 “接收” 反馈来改善网络架构上的视觉和语言模型的语义基础能力,无需领域特定训练数据、微调或修改网络架构。使用二进制信号作为反馈机制,适当触发时,能够利用反馈以迭代和单步方式改善大规模网络模型的语义基础,通过自动化的反馈机制在所有环境中 - 利用大型语言模型进行多级反馈生成以赋予新手同行辅导员能力
利用大规模语言模型为初级精神治疗督导员提供多层次背景知识和文本反馈,以此提升大量使用同伴咨询的人群心理健康支持,通过与领域专家的定性和定量评估,确保高风险情境下潜在有害和低质量反馈的最小化。
- 利用生成文本模型为学生教学评价创造定性编码书
使用自然语言处理和大型语言模型,本文介绍一种分析学生教学评估的新方法,展示了该方法如何提取、嵌入、聚类和总结评估中的主题,以生成评估的编码书,同时讨论了该方法在教学和研究环境中对学生写作分析的影响。
- 奖励驱动的非平稳随机赌博机的探索
为具有非平稳奖励分布的多臂赌博问题研究激励探索,其中玩家探索贪心选择以外的臂部时获得补偿,并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境:突变和连续变化,并提出相应的激励探索算法。我们表明,所提出的算法在时间上实现了亚线性的遗憾和补 - 评估大型语言模型在编程教育中生成反馈的应用
该研究探讨了大型语言模型(特别是 GPT-4)在提升编程教育方面的应用。该研究介绍了一个利用 GPT-4 设计的网页应用,用于对编程任务提供反馈,但不提供解决方案。该网页应用在一个学期内进行了 51 名学生的评估,结果显示 GPT-4 生成 - 使用 GPT-4 进行程序练习的反馈生成
该研究探索了使用 GPT-4 Turbo 生成学生编程提交的反馈,研究结果显示相比 GPT-3.5,GPT-4 Turbo 在输出质量上有显著的改进,可以更准确地识别学生程序输出中的错误,并能为学生提供结构化和一致的反馈。此研究还增加了我们 - LLMCRIT: 教授大型语言模型使用准则
通过使用全面的准则为任务提供自然语言反馈,我们提出了一个允许大型语言模型使用准则的通用框架,然后在真实场景中的三个任务中评估了我们的反馈生成框架,揭示了整合准则和示范的细致效果,并提供了有关如何教授大型语言模型更有效使用准则的宝贵见解。
- RefuteBench:评估大型语言模型的反驳指令跟随
该研究论文介绍了大型语言模型在接受用户反馈方面的问题,并提出了一个包括问答、机器翻译和电子邮件写作等任务的综合评估基准 RefuteBench。研究发现,大型语言模型倾向于自身内部知识,并且在对话过程中逐渐遗忘用户的反馈,而回归到自己的回复 - 利用可解释人工智能在在线评测系统中识别学生档案
该研究论文通过对在线评测系统收集的信息进行进一步利用,应用基于学习的方案和解释性人工智能提供学生和教师反馈,以预测学生课程作业结果并识别潜在失败的学生群体。
- 用户对智能家居设备提供反馈的方法
智能家居技术对于使人们的生活更简单、更轻松近年来引起了非凡的兴趣。本文将研究用户对智能家居设备提供反馈的行为意向,通过在线调查研究用户对智能家居设备的反馈动机和期望。我们观察到大多数用户积极主动地愿意分享他们对智能家居设备的反馈,以改进产品 - 探索非专业用户反馈对提升 AI 公平性的影响
人工智能的公平性在高风险决策中越来越引起关注,让利益相关者,尤其是普通用户,参与公平的人工智能开发具有潜力但往往被忽视。最近的努力探索了让普通用户提供与公平性相关的反馈的方法,但对如何将用户的反馈整合到人工智能模型中以及这样做的影响尚不了解 - 从用户反馈中提取自洽因果洞察:LLM 和上下文学习
利用大型语言模型(LLM)的推理能力,我们基于双重机器学习(DML)技术构建一个先验模型,以补偿领域知识匮乏的问题,用作衡量反馈信息的启发式方法,能够提取已知问题、发现新的错误,并识别导致错误的事件序列。
- 一个开发和评估自动讲座风格评估系统的综合框架
开发并评估了一个综合系统,可自动评估讲座风格,为教师提供即时反馈以提高课堂质量,通过提取面部表情、身体活动、语速和语调、手部动作和面部姿势等可测量的生物特征,结合整个讲座的评分和指标,系统评估结果表明,应用不仅能提供有关讲座质量的自动化反馈 - Pachinko: 通过自然语言反馈修补可解释的问答模型
通过分析问答模型生成的基于背景和问题的中间解释,我们研究了解不同形式的解释对用户修正和理解模型输出的影响,并通过用户研究证明了解释格式在用户反馈和模型执行反馈方面的重要性。
- 高分辨率星系模拟中计算密集型超新星模拟的代理建模
我们开发了一种结合机器学习和 Gibbs 采样的方法,用于预测超新星对周围气体的影响,我们的模型在热能和动量分布的准确性方面胜过低分辨率的超新星模拟,该方法可以取代超新星子网格模型,并帮助适当地模拟未解决的超新星反馈在星系形成模拟中的计算成 - 咖啡:通过反馈修复错误以提高代码 LLM 性能
使用开源代码 LLMs 生成有正确指导的代码编辑的有用反馈的 CoffeePots 框架,在 HumanEvalFix 基准测试中实现了最先进的性能