在线广告中基于 LLMs 的真实聚合

May, 2024

Truthful Aggregation of LLMs with an Application to Online Advertising

Ermis Soumalias, Michael J. Curry, Sven Seuken

TL;DR我们提出一种无需微调或访问模型权重的拍卖机制，能有效聚合多个参与者对 LLM 生成的用户查询回复的偏好，并能加入可用的上下文信息，实现快速收敛，从而提高广告主价值和平台收入。

Abstract

We address the challenge of aggregating the preferences of multiple agents over LLM-generated replies to user queries, where agents might modify or exaggerate their preferences. New agents may participate for each new query, making fine-tuning llms on these preferences impractical. To

aggregating preferences auction mechanism fine-tuning llms contextual information online advertising

发现论文，激发创造

通过检索增强生成技术的广告拍卖

该论文介绍了在大型语言模型中将广告集成到输出中的机制，提出了一种基于拍卖的广告分配和定价方法，通过检索增强生成（RAG）在段落、章节或整个输出中根据出价和相关性概率性地检索广告并根据竞争出价定价，展示了最大化对数社会福利的拍卖机制，并表征了相关的激励兼容定价规则。实证评估验证了我们的方法在多种广告拍卖场景中的可行性和有效性，并展示了在允许大型语言模型更灵活地分配广告时的度量指标之间固有的权衡。

Jun, 2024

具有 LLM 摘要的拍卖

研究了一个拍卖设置，在该设置中投标人为了使他们的内容在大型语言模型 (LLM) 生成的概要中得到展示，例如广告拍卖，其中显示的是多个广告的概要段落。研究提出了一个新的分解框架，在该框架中，通过预测模型，一个拍卖模块和一个 LLM 模块共同工作，以在激励相容的方式提供最大化福利的概要输出。通过理论分析和合成实验，证明了该系统的可行性和有效性，并进行了福利比较。

Apr, 2024

基于 LLMs 的在线广告：机遇与挑战

本文探讨了在在线广告系统中利用大型语言模型 (LLM) 的潜力，深入研究了该系统必须满足的隐私、延迟、可靠性、用户和广告商满意度等关键要求。我们进一步介绍了一个 LLM 广告的通用框架，包括修改、竞价、预测和拍卖模块，对每个模块的设计考虑进行了详细探讨，分析了它们的实用性以及实现中存在的技术挑战。

Nov, 2023

通过微调语言模型，在人类具有不同偏好的情况下寻找共识

通过 fine-tuning 机制，使用大型语言模型生成众人认可的共识性议论，以协调多样化的人类意见，并发现从子集中生成的共识性声明提高了个体贡献，并能够被人类用户所接受，具有较强的差异性和普适性。

Nov, 2022

关于大型语言模型 “令人惊讶可能” 的回答的真实性研究

在这篇研究中，我们调查了类似于 Bayesian Truth Serum 的标准对 LLMs 的回答的相关性，并假设在一定条件下，根据这一标准最大化奖励的回答应该比仅最大化后验概率的回答更准确。通过使用包括 TruthfulQA 基准和开放可用的 LLMs（如 GPT-2 和 LLaMA-2）的基准实验证明该方法确实显著提高了准确性（例如，在 TruthfulQA 上的总体改进高达 24 个百分点，在各个问题类别上的改进高达 70 个百分点）。

Nov, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023

Google Ads 内容审核的 LLM 评估扩展

本研究提出了一种方法，用于在 Google Ads 中扩大大型语言模型（LLM）的内容审核，通过使用启发式方法选择候选项，创建广告簇，并使用 LLMs 仅审核代表性广告，该方法将审核数量减少了 3 个数量级，同时与基准非 LLM 模型相比，实现了 2 倍的召回率。该方法的成功与聚类和标签传播中使用的表示方式密切相关，发现跨模态相似性表示法比单模态表示法获得更好的结果。

Feb, 2024

多智能体一致性寻求：基于大型语言模型

研究使用大规模语言模型（LLMs）驱动的多 Agent 系统在协作中解决复杂任务的能力。主要考虑多 Agent 协作中的一个基本问题：共识寻求。通过 Agent 间的协商，研究了一个寻求共识的任务，其中每个 Agent 的状态是数字值，他们彼此协商达成共识值。发现，当没有明确指导应采用哪种策略时，LLM 驱动的 Agent 主要使用平均策略寻求共识，尽管偶尔也会使用其他策略。此外，分析了 Agent 数量、Agent 个性和网络拓扑对协商过程的影响。研究结果为理解 LLM 驱动的多 Agent 系统在解决更复杂任务方面的行为奠定了基础。除此之外，将 LLM 驱动的共识寻求应用于多机器人聚合任务，展示了 LLM 驱动的 Agent 在多机器人协作任务中实现零次规划的潜力。项目网址: westlakeintelligentrobotics.github.io/ConsensusLLM/。

Oct, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

检测对话式搜索中的生成型原生广告

通过使用大型语言模型 (LLMs) 生成与查询相关的回答，并将广告进行整合，该论文调查了 LLMs 是否可以用作反制生成的原生广告的措施。

Feb, 2024