在线个性化白盒LLMs生成与神经贝叶斯
个性化文本生成是一个新兴的研究领域,通过使用大型语言模型 (LLMs),我们提出了一种通用的个性化文本生成方法。借鉴写作教育的实践,我们开发了一个多阶段和多任务的框架来教授 LLMs 进行个性化生成。我们的方法包括检索、排名、总结、综合和生成多个阶段,并引入了一个多任务设置来进一步提高模型的生成能力。我们在三个涵盖不同代表性领域的公开数据集上评估了我们的方法,结果显示相对于各种基线模型,我们取得了显著的改进。
Aug, 2023
探索人类如何最好地利用LLMs进行写作,以及与这些模型交互对写作过程中的所有权感和信任感的影响,我们比较了在LLM辅助的新闻标题生成背景下的常见人工智能与人类交互类型(例如,引导系统、从系统输出中选择、后编辑输出)。虽然LLMs单独可以生成令人满意的新闻标题,但平均而言,需要人类对不符合要求的模型输出进行修正。在交互方法中,引导和选择模型输出带来了最大的利益,成本最低(时间和精力)。此外,与自由编辑相比,人工智能辅助对参与者对控制感的认知没有造成伤害。
Oct, 2023
缩写展开是一种通过限制打字量并使用语言模型建议展开来加快沟通的策略。本文研究了基于之前对话进行个性化的大型语言模型(LLM)建议,以增强预测的相关性,尤其是在用户数据较少(~1000个样本)的情况下。我们比较缩写输入的fine-tuning,prompt-tuning和检索增强生成的扩展文本建议。我们的案例研究针对部署的80亿参数LLM与一个真实的患有ALS病的用户以及电影角色个性化方面的实验表明:(1)在某些场景下可能需要定制化,而prompt-tuning对这些场景具有很好的泛化能力;(2)在域内数据(仅有600个样本)上的fine-tuning仍然显示一些收益,然而(3)检索增强的少样本选择也优于fine-tuning;(4)参数高效调整可以实现高效和可扩展的个性化。对于prompt-tuning,我们还发现将学习的“软提示”初始化为与用户相关的概念标记比随机初始化能够获得更高的准确性。
Dec, 2023
本研究论文探讨了扩展的检索方法用于个性化大型语言模型,通过两种优化算法从下游任务获取反馈进行检索优化,并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验,并获得了显著的统计结果。
Apr, 2024
通过对大型语言模型的对齐训练以及奖励模型的检测能力,本文提出了两种训练方案用于提高对LGM生成文本的检测效果,并在六个文本领域的十二个对齐模型上进行了广泛的评估,展示了最先进的结果。
May, 2024
该研究介绍了一种名为LLM辅助在线学习算法(LOLA)的新型框架,通过将大型语言模型(LLMs)与自适应实验相结合,优化内容传递,以提高用户参与度。研究结果表明,与传统A/B测试方法相比,LOLA在有限的实验流量或多种实验情境下表现更好,特别适用于数字广告和社交媒体推荐等各种数字环境中的内容实验。
Jun, 2024
这篇论文提出了一种新颖的方法,用于将大型语言模型(LLMs)与个人偏好进行匹配,有时被称为个性化人工反馈的强化学习(RLPHF)方法。通过合并多个专门训练在特定偏好维度上的专家LLMs的输出,使用黑盒方法在标记级别上生成文本,并通过训练轻量级偏好控制模型(PCM)动态地调整下一个标记的预测权重,从而优化给定的偏好。实证测试表明,该方法与现有的偏好合并技术相匹配甚至超过,提供了一种可扩展的、高效的用于个人化的LLMs微调的替代方法。
Jul, 2024