大规模支持大型语言模型输出的意义构建
该论文调查了大型语言模型的八个潜在问题,包括其预测能力的增强,不可预测的行为的出现,对外部世界的学习和使用表示,行为引导技术的不可靠性,内部工作方式的解释困难性,性能上界不是人类任务表现,不一定表达其创建者或网络文本编码的价值观,与 LLMs 的简短交往经常是误导性的。
Apr, 2023
通过调整参数和不同的提示工程技术,探索大型语言模型在生成多样化设计方案方面的有效性,并通过比较多个参数和提示工程方法的组合,以及使用相同多样性指标与人工设计方案进行比较,结果表明人类生成的解决方案在所有设计主题上始终有更高的多样性评分。
May, 2024
大规模语言模型(LLMs)在重新塑造推荐系统中的重要性得到强调,将其价值归因于传统推荐系统中缺乏的独特推理能力。与缺乏直接用户交互数据的传统系统不同,LLMs 在推荐物品方面表现出卓越的熟练度,展示了其理解语言细微差别的能力,这标志着推荐领域的一个基本范式转变。在充满活力的研究领域中,研究人员积极利用 LLMs 的语言理解和生成能力重新定义推荐任务的基础。本文详细探讨了 LLMs 在推荐框架中的固有优势,包括细微的语境理解、在不同领域之间无缝切换、采用统一的方法、利用共享数据库的全面学习策略、透明的决策制定和迭代改进。尽管具有改变潜力,但仍存在挑战,包括对输入提示的敏感性、偶尔的误解以及意外的推荐,这需要对 LLM 驱动的推荐系统进行持续的完善和演进。
Feb, 2024
本文概论了基于大型语言模型的推荐系统,提出了两种主要类型(分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec),分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估,并指出了主要挑战和有价值的发现。
May, 2023
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
我们研究了大型语言模型(LLMs)产生有说服力的文本的能力,通过构建一个新的数据集 Persuasive-Pairs,用于训练回归模型来预测文本对之间的说服力得分,并讨论了系统提示中不同 'personas' 对文本的影响。
Jun, 2024
通过实证用户研究 (n=30),我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用,发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助,尤其在翻译和审阅方面 LLMs 更为有帮助,同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。
Sep, 2023
大型语言模型(LLMs)在许多任务中表现出了令人惊讶的性能,包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息,例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究(N=192,202),我们向人类评估者展示了几个模型(GPT4 Turbo、Llama2 和 Mistral)生成的各种回应,并要求他们评估这些回应的共情程度。我们发现 LLM 生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明,这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的 “风格”。这些结果凸显了在强调共情的情境中利用 LLMs 提升人类同伴支持的潜力。
Mar, 2024
通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集,该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据,并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感,对于输入表中存在大量语法变化的任务,聚类选择技术优于随机选择基准模型。
Feb, 2024