大规模支持大型语言模型输出的意义构建

Jan, 2024

大规模支持大型语言模型输出的意义构建

Supporting Sensemaking of Large Language Model Outputs at Scale

Katy Ilonka Gero, Chelse Swoopes, Ziwei Gu, Jonathan K. Kummerfeld, Elena L. Glassman

TL;DR研究了如何同时呈现多个大型语言模型的响应，设计了包括计算文本文档之间相似性和差异性的预存和新方法以及如何渲染它们的输出的五个特征，通过对用户研究和八个案例研究的评估发现这些特征支持多样的意义理解任务，并使之前被认为过于困难的任务现在变得可行，最后提出了设计指南以指导未来对新型大型语言模型界面的探索。

Abstract

large language models (LLMs) are capable of generating multiple responses to a single prompt, yet little effort has been expended to help end-users or system designers make use of this capability. In this paper, we explore how to present many →

large language models llm responses similarities and differences user study design guidelines

发现论文，激发创造

大型语言模型八大要点

该论文调查了大型语言模型的八个潜在问题，包括其预测能力的增强，不可预测的行为的出现，对外部世界的学习和使用表示，行为引导技术的不可靠性，内部工作方式的解释困难性，性能上界不是人类任务表现，不一定表达其创建者或网络文本编码的价值观，与 LLMs 的简短交往经常是误导性的。

Apr, 2023

大型语言模型探索多样化设计解决方案的能力

通过调整参数和不同的提示工程技术，探索大型语言模型在生成多样化设计方案方面的有效性，并通过比较多个参数和提示工程方法的组合，以及使用相同多样性指标与人工设计方案进行比较，结果表明人类生成的解决方案在所有设计主题上始终有更高的多样性评分。

May, 2024

探究大型语言模型对推荐系统的影响：一次广泛的综述

大规模语言模型（LLMs）在重新塑造推荐系统中的重要性得到强调，将其价值归因于传统推荐系统中缺乏的独特推理能力。与缺乏直接用户交互数据的传统系统不同，LLMs 在推荐物品方面表现出卓越的熟练度，展示了其理解语言细微差别的能力，这标志着推荐领域的一个基本范式转变。在充满活力的研究领域中，研究人员积极利用 LLMs 的语言理解和生成能力重新定义推荐任务的基础。本文详细探讨了 LLMs 在推荐框架中的固有优势，包括细微的语境理解、在不同领域之间无缝切换、采用统一的方法、利用共享数据库的全面学习策略、透明的决策制定和迭代改进。尽管具有改变潜力，但仍存在挑战，包括对输入提示的敏感性、偶尔的误解以及意外的推荐，这需要对 LLM 驱动的推荐系统进行持续的完善和演进。

Feb, 2024

推荐系统中的大型语言模型调查

本文概论了基于大型语言模型的推荐系统，提出了两种主要类型（分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec），分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估，并指出了主要挑战和有价值的发现。

May, 2023

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

衡量和基准大型语言模型生成有说服力语言的能力

我们研究了大型语言模型（LLMs）产生有说服力的文本的能力，通过构建一个新的数据集 Persuasive-Pairs，用于训练回归模型来预测文本对之间的说服力得分，并讨论了系统提示中不同 'personas' 对文本的影响。

Jun, 2024

大语言模型时代的创造力支持：涉及新兴作家的实证研究

通过实证用户研究 (n=30)，我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用，发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助，尤其在翻译和审阅方面 LLMs 更为有帮助，同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。

Sep, 2023

大型语言模型产生被认为是有同理心的回应

大型语言模型（LLMs）在许多任务中表现出了令人惊讶的性能，包括撰写表达共情的支持性信息。我们在这里让这些模型生成对描述常见生活经历的帖子的共情信息，例如职场环境、育儿、人际关系和其他引发焦虑和愤怒的情境。通过两项研究（N=192，202），我们向人类评估者展示了几个模型（GPT4 Turbo、Llama2 和 Mistral）生成的各种回应，并要求他们评估这些回应的共情程度。我们发现 LLM 生成的回应在共情程度上一直被评为比人工撰写的回应更具共情性。语言分析还表明，这些模型在标点符号、表情符号和某些词语的使用方面具有独特、可预测的 “风格”。这些结果凸显了在强调共情的情境中利用 LLMs 提升人类同伴支持的潜力。

Mar, 2024

利用大型语言模型解决数据中心任务

通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集，该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据，并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感，对于输入表中存在大量语法变化的任务，聚类选择技术优于随机选择基准模型。

Feb, 2024