在线个性化白盒LLMs生成与神经贝叶斯

Apr, 2024

在线个性化白盒LLMs生成与神经贝叶斯

Online Personalizing White-box LLMs Generation with Neural Bandits

Zekai Chen, Weeden Daniel, Po-yu Chen, Francois Buet-Golfouse

TL;DR本研究提出一种创新的在线方法，利用神经决策算法来动态优化基于用户反馈的软指令嵌入，提升白盒LLMs的开放式文本生成个性化。通过在各种任务上的严格实验证明，与基线策略相比，尤其是NeuralTS，在个性化新闻标题生成方面取得了显著的性能改进，最佳ROUGE分数提高了62.9%，在LLM-agent评估方面提高了2.76%。

Abstract

The advent of personalized content generation by llms presents a novel challenge: how to efficiently adapt text to meet individual preferences without the unsustainable demand of creating a unique model for each

发现论文，激发创造

教导LLM个性化——受到写作教育启发的方法

个性化文本生成是一个新兴的研究领域，通过使用大型语言模型 (LLMs)，我们提出了一种通用的个性化文本生成方法。借鉴写作教育的实践，我们开发了一个多阶段和多任务的框架来教授 LLMs 进行个性化生成。我们的方法包括检索、排名、总结、综合和生成多个阶段，并引入了一个多任务设置来进一步提高模型的生成能力。我们在三个涵盖不同代表性领域的公开数据集上评估了我们的方法，结果显示相对于各种基线模型，我们取得了显著的改进。

Aug, 2023

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

利用LLM的力量：从新闻标题生成的角度评估人工智能文本协同创作

探索人类如何最好地利用LLMs进行写作，以及与这些模型交互对写作过程中的所有权感和信任感的影响，我们比较了在LLM辅助的新闻标题生成背景下的常见人工智能与人类交互类型（例如，引导系统、从系统输出中选择、后编辑输出）。虽然LLMs单独可以生成令人满意的新闻标题，但平均而言，需要人类对不符合要求的模型输出进行修正。在交互方法中，引导和选择模型输出带来了最大的利益，成本最低（时间和精力）。此外，与自由编辑相比，人工智能辅助对参与者对控制感的认知没有造成伤害。

Oct, 2023

参数高效调整实现 LLMs 的可扩展个性化：基于缩写扩展的案例研究

缩写展开是一种通过限制打字量并使用语言模型建议展开来加快沟通的策略。本文研究了基于之前对话进行个性化的大型语言模型（LLM）建议，以增强预测的相关性，尤其是在用户数据较少（~1000个样本）的情况下。我们比较缩写输入的fine-tuning，prompt-tuning和检索增强生成的扩展文本建议。我们的案例研究针对部署的80亿参数LLM与一个真实的患有ALS病的用户以及电影角色个性化方面的实验表明：（1）在某些场景下可能需要定制化，而prompt-tuning对这些场景具有很好的泛化能力；（2）在域内数据（仅有600个样本）上的fine-tuning仍然显示一些收益，然而（3）检索增强的少样本选择也优于fine-tuning；（4）参数高效调整可以实现高效和可扩展的个性化。对于prompt-tuning，我们还发现将学习的“软提示”初始化为与用户相关的概念标记比随机初始化能够获得更高的准确性。

Dec, 2023

带参数化内存注入的个性化LLM响应生成

本研究提出了一种使用参数高效微调和贝叶斯优化搜索策略的记忆注入方法来实现大型语言模型的个性化响应生成(MiLP)。

Apr, 2024

个性化大型语言模型的优化方法：通过检索增强

本研究论文探讨了扩展的检索方法用于个性化大型语言模型，通过两种优化算法从下游任务获取反馈进行检索优化，并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验，并获得了显著的统计结果。

Apr, 2024

个性化多模态生成与大型语言模型

该论文提出了一种使用大型语言模型进行个性化多模态生成的方法，并通过实验验证了其性能，在推荐系统等应用中具有重要意义。

Apr, 2024

ReMoDetect：奖励模型识别对齐LLM的生成

通过对大型语言模型的对齐训练以及奖励模型的检测能力，本文提出了两种训练方案用于提高对LGM生成文本的检测效果，并在六个文本领域的十二个对齐模型上进行了广泛的评估，展示了最先进的结果。

May, 2024

LOLA: 基于LLM的在线学习算法用于内容实验

该研究介绍了一种名为LLM辅助在线学习算法（LOLA）的新型框架，通过将大型语言模型（LLMs）与自适应实验相结合，优化内容传递，以提高用户参与度。研究结果表明，与传统A/B测试方法相比，LOLA在有限的实验流量或多种实验情境下表现更好，特别适用于数字广告和社交媒体推荐等各种数字环境中的内容实验。

Jun, 2024

不同个性化的协同LML构建

这篇论文提出了一种新颖的方法，用于将大型语言模型（LLMs）与个人偏好进行匹配，有时被称为个性化人工反馈的强化学习（RLPHF）方法。通过合并多个专门训练在特定偏好维度上的专家LLMs的输出，使用黑盒方法在标记级别上生成文本，并通过训练轻量级偏好控制模型（PCM）动态地调整下一个标记的预测权重，从而优化给定的偏好。实证测试表明，该方法与现有的偏好合并技术相匹配甚至超过，提供了一种可扩展的、高效的用于个人化的LLMs微调的替代方法。

Jul, 2024