超越协助和无害性:通过人物内文学习从大型语言模型中引发多样行为
通过以人类为模版的角色对大型语言模型进行提示和回答问题,我们研究了这种模型在主观注释任务和信念生成任务中的表现,结果显示大型语言模型在模拟已知的人类偏见方面存在不同的结果,但在表现隐含的偏见方面通常未能达到预期。我们得出结论,大型语言模型缺乏人类思维的内在认知机制,虽然能够捕获人们言语的统计模式,但在复杂社会科学应用中可能限制其效果。
Jun, 2024
本文探讨了使用心理测量测试来量化和分析大型语言模型输出中的人格特质的可靠性和有效性,并讨论了如何对这些模型进行塑造的潜在应用和伦理影响,特别是关于负责任地使用 LLM。
Jul, 2023
通过在高质量的真实人类中文对话数据集上对大型语言模型(LLMs)在基于角色的对话生成中的上下文学习能力进行广泛实验,我们的工作填补了上下文学习研究在人类对话生成领域的空白。从实验结果中,我们得出了三个结论:1)调整提示指令是改善生成质量最直接、最有效、最经济的方法;2)随机检索演示(demos)可以取得最好的结果,可能是因为其更大的多样性和有效信息的数量;与查询上下文完全相同的检索演示的表现最差,与直觉相反;3)即使在演示中破坏了多轮关联和单轮语义,增加演示数量仍然可以提高对话性能,证明了 LLMs 可以从损坏的对话演示中进行学习。先前对 ICL 机制的解释,例如 $n$-gram 归纳头,不能完全解释这一现象。
Feb, 2024
该研究使用大型语言模型 (Large language models) 和模拟人物 (Simulated personae) 来强化人类常识与认知,展现专家行为的力量,其中包括挑战 LLM 回应的准确度以及复现量子光学领域的最新研究结果。
Jun, 2023
使用大型语言模型(LLMs)和个性变量在现有主观 NLP 数据集中模拟不同视角方面,发现个性变量通过提示在 LLMs 中的应用能提供适度的改善,但在解释人类标注中的作用较低(<10%)时,个性提示的效果很小,这对当前 NLP 领域中模拟多样性的可行性产生了质疑。
Feb, 2024
借助不同输入提示,使用多个参数大小的多个大型语言模型对它们的输出进行了评估,结果显示,大型语言模型普遍表现出高度的开放性和低度的外向性,且参数越多越倾向于开放性和责任心,并且在不同数据集上对细调模型产生了微小的调整
Feb, 2024
基于大型语言模型的代码生成中,我们提出了一种名为 LAIL 的新型学习选择方法,通过考虑给定需求和示例时生成真实程序的概率来估计候选示例,并通过概率反馈对候选示例进行标记,使用对比学习目标训练一个有效的检索器,从而提高了代码生成的性能。在 CodeGen 和 GPT-3.5 方面,LAIL 在三个代表性数据集上分别比基准线提高了 11.58%、6.89%、5.07%和 4.38%、2.85%、2.74%的 Pass@1 指标。
Oct, 2023
通过数据驱动的协同过滤方法,将用户嵌入到连续矢量空间中并聚类为具有一致观点的群体,以便实现更细致、更准确地理解不同社会群体,并增强模型的可操控性。最后,我们提出了一种有效的方法来将大型语言模型导向特定的个人,并通过学习软提示模型将用户的连续表示映射为虚拟令牌序列,从而使模型能够根据给定用户生成对应的回应。我们的结果表明,相比于一系列基准方法,我们的操控性算法具有更好的性能。
Nov, 2023
本文利用大型语言模型(LLM)通过个性化对话生成,基于个人特点和人格特质创建了一个合成对话数据集,从而证明了个性化对话模型和与 PersonaChat 相比的表现优势。
Jan, 2024