UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码
将生成式 AI(GenAI)和大型语言模型(LLMs)应用于教育可以提高教学效率,丰富学生学习。使用当前的 LLM 涉及到会话式用户界面(CUIs)用于生成材料或提供反馈,但这带来了教育者在 AI 和 CUI 领域的专业知识需求、高风险决策的道德问题以及隐私风险。为了解决这些问题,我们建议从 CUIs 过渡到通过 API 调用利用 LLMs 的用户友好应用程序。我们提出了一个将 GenAI 道德地融入教育工具的框架,并展示了其在我们的工具 Feedback Copilot 中的应用,该工具为学生作业提供个性化反馈。我们的评估结果显示了这种方法的有效性,对 GenAI 研究人员、教育者和技术人员具有重要意义。这项工作为教育中的 GenAI 未来制定了一条路线。
Apr, 2024
最近大型语言模型的进展激发了研究人员和行业专业人员的兴趣,特别是在与移动用户界面相关的任务中的应用。本研究探讨了使用大型语言模型进行用户界面布局生成的方法,并引入了 UI 语法的概念,以更有效地指导生成能力,并提高过程的可解释性和可控性。通过与 GPT-4 进行的初步实验表明,大型语言模型通过上下文学习具有产生高质量用户界面的有希望的能力。此外,我们的初步比较研究显示了基于语法的方法在改善特定方面的生成结果质量方面的潜力。
Oct, 2023
通过利用大型语言模型 (LLMs) 的升级力量,本研究关注于构建一个可作为用户与用户界面之间中介的框架,通过对自然文本输入进行彻底分析,有效地理解用户需求,使得精心设计的 LLM 引擎能够分类最可能的可用应用程序,识别所需的用户界面组件,并随后执行用户预期行为,从而将静态用户界面系统转变为高度动态和适应性强的解决方案,引入智能和响应式用户体验的新领域。这样的框架可以从根本上改变用户完成日常任务的方式,提高效率,并大大减少认知负荷。
Feb, 2024
使用生成配对文本 - 图像训练数据的方法,无需人工提供注释,适用于任何 UI 截图数据集,通过将现有的基于像素的方法与大型语言模型(LLM)相结合,对 UI 领域的 VLM 进行自动微调,以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。
Oct, 2023
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
本文描述了一个支持扩展多模态交互的系统,通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码,我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。
Oct, 2023
本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。
Mar, 2023
本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动 UI 设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
通过自动化指标和静态分析工具评估大型语言模型与用户定义的编码偏好之间的对齐是一项具有挑战性的任务。本文介绍了 CodeUltraFeedback,这是一个包含 10,000 个复杂指令的偏好数据集,通过 AI 反馈调整和对齐语言模型与编码偏好。我们通过 14 个不同的语言模型对指令生成响应,并使用 LLM 作为评判器的方法对其对齐性进行了标注。我们还提出了 CODAL-Bench,用于评估语言模型与编码偏好对齐的基准。结果表明,通过使用 CodeUltraFeedback 的 AI 反馈数据,采用增强学习和直接优化编码偏好的方法,CodeLlama-7B-Instruct 在 CODAL-Bench 上优于 34B 模型,验证了 CodeUltraFeedback 在偏好调整方面的实用性。此外,我们还展示了经过优化的 CodeLlama 模型相比于未对齐的基础模型在 HumanEval + 上的功能正确性有所改进。因此,我们的贡献弥合了语言模型对编码偏好的调整差距,并为模型对齐和代码智能的进一步发展奠定了基础。
Mar, 2024
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。
Jun, 2024