- 咖啡:通过反馈修复错误以提高代码 LLM 性能
使用开源代码 LLMs 生成有正确指导的代码编辑的有用反馈的 CoffeePots 框架,在 HumanEvalFix 基准测试中实现了最先进的性能
- EMNLP学会欣赏勤奋的喷子:在对话安全任务中考虑评价者效应
使用自动论文评分(AES)方法,通过多个用户对话进行隐藏类别分析(LCA)来推断正确标签,从而解决了聊天机器人在协同攻击中可能遇到的高成本和一致性限制。
- ConstitutionMaker: 将反馈转化为原则,通过交互式评价大型语言模型
通过用户反馈将其转化为一组原则(即宪法)来引导模型行为,我们开发了 ConstitutionMaker,一种交互式工具,用于引导基于 LLM 的聊天机器人,用户可以根据自然语言提供积极或消极反馈,选择自动生成的反馈,或重写聊天机器人的回复。
- 评估 ChatGPT 对 ELL 作家的连贯性和凝聚力的反馈
ChatGPT 在无具体任务训练的情况下,对于英语学习者的文章连贯性和衔接性未提供有效反馈。
- 使用误差增强的肌电手势分类用户训练
设计并测试了一种实时控制的用户界面系统,通过提取腕带配置中八个电极的表面肌电(sEMG)活动。实时将 sEMG 数据传入机器学习算法,用于手势分类。实验结果表明,相对于基线,修改的反馈条件显著提高了准确性和手势分类分离,暗示了通过反馈操作的 - 交互式无类别物体计数
我们提出了一个新颖的互动式无类别对象计数框架,其中人类用户可以交互地提供反馈以提高计数器的准确性。我们的框架包括两个主要组成部分:一个用户友好的可视化工具来收集反馈,以及一个高效的机制来整合它。
- 使用语言模型隐性自动评估数学简答题
我们提出了一种新的方法来评估数学题的一些简短构建性回答。我们的方法使用一个流程来识别学生回答中指定的关键值,从而确定回答的正确性并发现任何误解。这些关键值的信息可以用于为教师和学生提供反馈,以提供更准确和有用的评估方法,有效改善学生对数学的 - 教我如何提升论证技巧:论证反馈调查
通过调查现有的计算模型以及反驳理论中不同维度的反馈(丰富性、可视化、交互性和个人化),探讨提供解释能力的可能性,进而帮助学习者提高批判性思维能力。
- 一个大型语言模型辅助的教育工具:针对开放性回答提供反馈
使用大型语言模型的工具可以自动回复开放性问题,提供快速个性化反馈,提高学生学习效果和教学方法。
- 基于大型语言模型的系统,为翻转课堂准备学习的学生提供即时反馈
使用大型语言模型的系统提供即时反馈给学生在翻转课堂准备学习中,旨在解决翻转课堂模式中确保学生情感投入和动力学习的挑战。
- 自动化作文评分反馈综述
发展中的自动化作文评分系统不仅旨在评分,同时可以作为一种学习工具,以改善用户的写作技能。反馈是使其在现实生活中有用的最重要的方面,并且本文回顾了有关反馈的研究,包括不同类型的反馈和自动化作文评分中的不同特征。我们还审查了提供反馈的最新案例研 - GPT-4 和人类评分员对合成对话中赞扬给予学生的评估的比较分析
研究发现,提供具体及时的反馈可以提高人类导师的表现,但由于评估导师表现的时间消耗性质,给出具体及时的反馈存在挑战,然而使用大语言模型 (如 AI-chatbot ChatGPT) 来为实际应用中的导师提供建设性反馈有潜力。 这项工作在导师 - ICML了解反馈在在线学习中转换成本中的作用
本文主要研究反馈在在线学习中的作用以及它对遗憾的影响,特别是在 bandit 学习中,我们充分表征了不同反馈类型下的 minimax 遗憾,并设计了算法框架以实现匹配上限。
- 学习的进化理论:从自然选择到强化学习
本文探讨了进化和强化学习之间的联系和影响,并强调了强化学习原理提高对进化和反馈在进化系统中作用的理解的潜力。
- 视觉语言模型零样本泛化的测试时间自适应与 CLIP 奖励
提出一种测试时反馈方法来解决视觉 - 语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用 CLIP 作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化 - 探索 ChatGPT 在现有分类体系下分析学生团队反馈的效力
本研究探讨了使用生成式 AI 模型,特别是 ChatGPT,分析团队学习环境中学生评价的能力,并证实其在准确识别评价内容方面具备潜在的价值,为教育研究中 AI 模型的应用做出了有益的贡献。
- QVoice:阿拉伯语语音发音学习应用
该研究介绍了一种新型的阿拉伯语发音学习应用程序 QVoice,具备端到端的发音错误检测和反馈生成模块,支持非阿拉伯语为母语的人士提高他们的发音技巧,同时还帮助以现代标准阿拉伯语(MSA)为语言的固定语言者消除地方方言对其发音的潜在影响。QV - 限制性反馈带来额外性能收益
提出面向反馈的机器学习模型调优挑战 (EXPECTED),并针对深度模型引入了针对参数分布的几何特征及更高效的层次调优算法,通过实验验证了该算法的准确性和有效性。
- 点击反馈检索
本研究旨在通过用户点击喜欢和不喜欢的搜索结果提供反馈,以指导搜索过程,构建了新的基于时尚领域大规模数据集的点击反馈检索基准,证明了将点击反馈纳入训练可以显著提高检索质量。
- MM利用反馈的实体视觉导航鲁棒性
本文提出了一个培训框架,用于训练代理在物体目标导航任务中主动寻求帮助,并提供有反馈的目标物体在其视野中的位置。为了使代理更加鲁棒,该培训课程包括具有和没有反馈的情节混合。结果表明,即使没有反馈,在这个方法的帮助下,代理的表现也得到了提高。