通过强化学习驱动的查询优化增强大规模语言模型的能力和稳健性
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。
May, 2024
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器人 GPT-4 上,DRA 拥有 90%的攻击成功率。
Feb, 2024
介绍了一种名为 “重述和回答”(RaR)的方法,通过使人类的问题被大型语言模型(LLMs)重述和展开,从而在单个提示中提供回答,以提高 LLM 的性能。还介绍了 RaR 的两步变体方法,通过将问题由一个 LLM 重述后传递给另一个 LLM,有效地利用了由一个 LLM 生成的重述问题。实验证明这些方法显著提高了不同模型在各种任务上的性能,并与 Chain-of-Thought(CoT)方法进行了综合比较,发现 RaR 与 CoT 互补,结合使用效果更好。该工作不仅对提高 LLM 性能具有高效和有效的贡献,还对公正评估 LLM 能力具有重要意义。
Nov, 2023
通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型,利用金融数据集和检索增强生成技术 (RAG),证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。
Jan, 2024
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
通过利用大型语言模型作为查询重写器,并结合精心设计的指令,我们定义了四个重写的关键属性,提出了基于大型语言模型的查询重写方法。我们还介绍了 LLMs 的重写能力的提炼,并采用 “先重写后编辑” 的方法来处理初始查询重写。实验结果在 QReCC 数据集上表明,信息丰富的查询重写可以显著提高检索性能,特别是在检索器稀疏的情况下。
Oct, 2023