LOLA: 基于 LLM 的在线学习算法用于内容实验
本研究旨在研究大语言模型是否适用于高质量的点击诱饵检测系统,并通过在多个英文和中文基准数据集上进行的实验结果表明,LLMs 不能实现与最先进的深度微调方式相比的最佳结果,对于检测点击诱饵文本,仅仅使用标题是不够的。
Jun, 2023
本研究提出了一种方法,用于在 Google Ads 中扩大大型语言模型(LLM)的内容审核,通过使用启发式方法选择候选项,创建广告簇,并使用 LLMs 仅审核代表性广告,该方法将审核数量减少了 3 个数量级,同时与基准非 LLM 模型相比,实现了 2 倍的召回率。该方法的成功与聚类和标签传播中使用的表示方式密切相关,发现跨模态相似性表示法比单模态表示法获得更好的结果。
Feb, 2024
社交媒体及其新闻推送算法对于提升构建性对话具有挑战性,本研究使用大型语言模型和基于代理模型的仿真来研究不同的新闻推送算法如何影响在线对话质量,发现新推送算法能够促进跨政治观点的建设性、非有害对话。
Oct, 2023
通过使用大型语言模型作为注释者,并将其放入主动学习循环中,我们提出了 LLMaAA 方法,充分发挥大型语言模型的潜力并有效利用大量无标签数据,提高效率和可靠性,并且在命名实体识别和关系抽取等自然语言处理任务上取得了超过其他基线方法的更高性能。
Oct, 2023
本文探讨了在在线广告系统中利用大型语言模型 (LLM) 的潜力,深入研究了该系统必须满足的隐私、延迟、可靠性、用户和广告商满意度等关键要求。我们进一步介绍了一个 LLM 广告的通用框架,包括修改、竞价、预测和拍卖模块,对每个模块的设计考虑进行了详细探讨,分析了它们的实用性以及实现中存在的技术挑战。
Nov, 2023
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
通过 OllaBench 评估框架,综合考虑人类因素和认知计算能力,评估了 21 种大型语言模型在情景信息安全合规和不合规问题中的准确性、浪费程度和一致性,结果显示商业模型的整体准确性最高,但仍有改进的空间,小型开放权重模型表现不逊,模型间的记号效率和一致性存在显著差异,OllaBench 为人类中心的相互依赖性网络安全及其他领域的研究人员和解决方案开发者提供了一个用户友好的接口和广泛的 LLM 平台支持。
Jun, 2024
提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL,用于有效地进行大型语言模型的终身学习,使用问题 - 答案对作为输入以提高鲁棒性和效率,并通过新的评估基准和指标对其进行了全面评估。
Feb, 2024
通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示,广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。
Feb, 2024
我们提出了一个针对大型语言模型的成本效益查询分配问题的框架,名为 OptLLM,通过使用多标签分类模型进行性能预测,生成一系列优化解决方案,旨在满足用户的预算限制和性能偏好,包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验,包括文本分类、问答、情感分析、推理和日志解析,实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性,相比其他多目标优化算法,OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。
May, 2024