ExpressivityArena:大语言模型能否隐含表达信息?
介绍了一种名为SocKET的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能,结果表明当前模型表现中等,但是存在不同类型和类别任务之间的任务转移潜力,同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力,这个基准提供了系统性的方式来分析模型在语言的重要维度上的性能,为构建更加符合社交意识的大型语言模型提供了指导。
May, 2023
本研究使用心理学框架来考察Large Language Models的行为模式,通过评估ChatGPT的人格类型及其在其他七种语言和其他四种模型上的跨语言影响,研究指出在指令或情境提示下,ChatGPT始终保持其ENFJ人格,揭示了LLMs的个性化特点,为未来进一步研究提供了启示。
May, 2023
研究大型语言模型(LLMs)的能力和潜力,其中涵盖语言学、认知科学、数学和历史等领域,提出将LLMs暴露于语言训练数据中的能力可重新定义为暴露于语言编码的故事信息,并探讨其误差原因。
Jun, 2023
文中研究探讨了大型语言模型(LLMs),尤其是OpenAI的ChatGPT系列的可操控性。通过采用行为心理学框架—OCEAN(开放性、责任心、外向性、宜人性、神经质),我们定量评估了模型对定制提示的响应能力。当被要求生成模拟外向人格特征的文本时,OCEAN评分与该行为特征的语言对齐程度相关。在我们的分析中,虽然“开放性”呈现出语言上的模糊性,但“责任心”和“神经质”在OCEAN框架中明显地被唤起,而“外向性”和“宜人性”则显示出明显的重叠但与其他特征有所区别。我们的研究强调了GPT的多功能性和辨别和适应微妙指令的能力。此外,历史人物模拟突显了大型语言模型内化和投射可教商的角色的能力,精确地复制他们的哲学和对话风格。然而,大型语言模型能力的快速提升和一些训练技术的不透明性使度量提案迅速退化。我们的研究强调了量化角色在描述大型语言模型的可操控性方面的作用,同时提出了进一步完善的领域,以使其进展与人类意图相一致。
Aug, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
借助五感、属性、情感状态、与交互者的关系和记忆,我们提出了一种新的方法来从大型语言模型中生成更加真实、一致的回答,旨在增强大型语言模型在会话交流中生成自然、真实反应的能力。通过我们的研究,我们希望为模仿小说人物的大型语言模型的改进能力做出贡献。我们在我们的GitHub上发布了一个新的基准数据集以及所有的代码、提示和样例结果。
Dec, 2023
研究探讨人类和LLM生成的对话之间的语言差异,并使用ChatGPT-3.5生成的19.5K对话作为EmpathicDialogues数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在118个语言类别上比较ChatGPT生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但ChatGPT在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了LLM“更接近人类”的最新发现。然而,在正面或负面情感方面,ChatGPT和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的ChatGPT生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的AI研究。我们的研究结果增加了对ChatGPT的语言能力的理解,并为区分人类和LLM生成的文本的持续努力提供了信息,这对于检测由AI生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
我们在GPT-3.5上通过提示方式进行个性化训练,创建了一组双组群体的LLM代理,然后进行个性测试并将代理提交到协作写作任务中,发现不同个性表现出不同程度的人格一致性和语言对话伙伴的语言协调性。我们的研究旨在为更好地理解LLMs之间基于对话的交互奠定基础,并强调了在交互环境中塑造稳健且更具人性的LLM个性的新方法的需求。
Feb, 2024
该研究以百川-7B和百川-33B为焦点,深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律,揭示了认知能力在预训练阶段建立,而表达能力主要在微调和强化学习阶段提升的顺序性发展模式,并探索了这些差异发展轨迹与LLMs的架构设计之间的理论基础,同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用,从而为培训过程的可解释性和可控性提供了有价值的洞见。
May, 2024
本研究解决了合成数据在训练语言模型中对人类语言模式的偏离问题,提出了一个全面的人类语言使用基准(HLB),通过10个心理语言学实验评估20个大型语言模型(LLMs)。研究发现,LLMs在不同语言层面上再现实人类反应的能力存在细微差异,并指出其他性能指标的提高不一定意味着人类语言相似度的提升。
Sep, 2024