- ConMe: 对现代 VLMs 的组合推理重新思考的评估
我们提出了一种新的数据生成流水线 ConMe,利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题,并通过与同类模型协同对话揭示其弱点,建立了一个稳健的复合推理基准,验证表明我们的基准相对于以前的基准提高了高达 33% 的复合 - Real2Code:通过代码生成重建关节物体
通过代码生成,使用 Real2Code 方法对关节物体进行重建,超过先前最先进的重建准确度,并且在训练集的结构复杂性之外,首次对具有多达 10 个关节部件的物体进行重建。
- Codecfake: 用于检测基于 LLM 的深度伪造音频的初始数据集
通过 Codecfake 数据集的实验结果显示,相较于使用 vocoder 的音频深度伪造检测模型,经过编码器训练的模型在 Codecfake 测试集上平均等误差率减少了 41.406%。
- MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试
通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具,对现有移动代理进行全面和系统性的性能比较,以解决应用程序状态无穷和可行操作序列定义模糊的挑战。
- LLAMAFUZZ:大型语言模型加强的灰盒模糊测试
利用预训练的大型语言模型 (LLM) 增强结构化数据的灰盒模糊测试,通过利用 LLM 的先前训练知识和基于 Magma 等基准的实验,LLAMAFUZZ 比其他方法平均提高了 41 个漏洞的检测,实现了一致的性能提升。
- 大型语言模型中的信号处理
这篇论文介绍了将信号处理应用于大型语言模型 (LLM) 的想法,并通过将信号处理与大型语言模型的领域相结合,将它们联系起来。我们在 LLM 的每个中间激活信号中建立了经典傅里叶变换和傅里叶变换类似的可学习的时频表示之间的相似性。将每个激活信 - 利用大型语言模型代理将可穿戴设备数据转化为健康信息
我们介绍了一种名为个人健康洞察代理(Personal Health Insights Agent,PHIA)的代理系统,它利用最新的代码生成和信息检索工具来分析和解释可穿戴设备中的行为健康数据。该研究对于推进行为健康在人群中的发展具有影响, - 自动精神疾病评估中的 LLM 问卷填写
我们利用大型语言模型将非结构化的心理访谈转化为涵盖各种精神疾病和人格领域的结构化问卷,通过模拟被访者的方式让语言模型回答这些问卷。得到的答案被编码为特征,并使用随机森林回归器预测抑郁症(PHQ-8)和创伤后应激障碍(PCL-C)的标准化精神 - 应对 Few-shot 命名实体识别中的重复训练和样本依赖问题的研究
我们的研究提出了一个改进的少样本命名实体识别流程,利用预训练的跨领域跳板标识检测器和大规模语言模型,有效减少了基本特征的重复训练,同时消除了对少样本的依赖,通过广泛的实验表明,在各种数据集上,我们的模型在细粒度少样本命名实体识别方面胜过基线 - CRAG - 全面的 RAG 基准
Retrieval-Augmented Generation (RAG) 是解决大型语言模型 (Large Language Model) 知识匮乏的有效方法,提出了 Comprehensive RAG Benchmark (CRAG) 用 - 大规模语言模型引导的文档选择
LLM 预训练模型通过精心选择文档,可以在仅使用部分 FLOPs 的情况下实现与完整训练相当的模型质量;通过使用提示的 LLM 作为文档评分器,我们将质量标签提取并应用于大规模的互联网抓取数据集,以自动筛除部分文档,从而更好地匹配性能,并通 - 销售悄悄话:对 LLM 品牌推荐的人类隐蔽攻击
在这篇论文中,我们评估了使用他人编写的提示时,在购物品牌推荐任务上的风险。我们发现改写提示会导致 LLM 以截然不同的概率提及给定的品牌,并设计了一种可以扰动原始基准提示的方法,使 LLM 更可能提到给定的品牌。我们的结果表明,我们的扰动提 - ACL混淆:大型语言模型产生的惊人价值
该研究论文从语义学的角度探讨了大型语言模型(LLM)的虚构现象或 ' 混淆 ',并认为这些混淆可能作为一种潜在资源而非负面弊端。研究结果表明,LLM 的混淆具有较高的叙述性和语义一致性,可能与连贯的叙事性文本生成的积极能力紧密相关。
- 会话式搜索引擎的排名操纵
该研究调查了提示注入对对话式搜索引擎参考来源的排序顺序的影响,并提出了一种基于攻击树的越狱技术,可可靠地提升低排名产品。
- 跨领域顺序推荐的用户检索集成探索
跨领域顺序推荐 (CDSR) 旨在挖掘和转移用户在不同领域的顺序偏好以减轻长期存在的冷启动问题。传统的 CDSR 模型通过用户和物品建模来捕捉协作信息,而忽视了有价值的语义信息。最近,大型语言模型 (LLM) 展现出强大的语义推理能力,激发 - 面向任务的查询基准 (ToQB)
利用现有的任务导向对话数据集和大型语言模型(LLM)服务,我们提出了一种高效生成任务导向查询基准(ToQB)的新方法,并演示了如何自定义 LLM 提示,并表征生成的任务导向查询。
- TruthEval:评估 LLM 的真实性和可靠性的数据集
通过手动编制敏感主题的具有已知真实值的具有挑战性陈述的 LLM 基准测试集 TruthEval,我们提供了一个区分 LLMs 能力与其随机性的策划集合,我们对此数据集进行了初步分析发现 LLMs 在简单任务中失败的几个情况,显示它们理解简单 - Helix: 基于异构 GPU 上的最大流进行大型语言模型的分布式服务
介绍了一种名为 Helix 的分布式系统,用于在异构 GPU 集群上提供高吞吐量和低延迟的大语言模型(LLM)服务。通过将 LLMs 的推理计算以最大流问题形式表示为有向加权图,使用混合整数线性规划(MILP)算法来发现高度优化的策略,从而 - 如何理解整个软件库?
我们开发了一种名为 RepoUnderstander 的新型自动软件工程(ASE)方法,通过指导代理程序全面了解整个代码库,将关键的整个代码库信息压缩成知识图,采用蒙特卡罗树搜索探索策略,通过分析和规划,使代理程序能够动态获取信息并生成补丁 - 克服 LLM 聊天机器人中误校准的对话先验
通过对聊天记录分析,发现查询的不明确性是常见的,据此,借助控制信息重校准预训练大型语言模型聊天机器人的回应策略,以改进其在推荐任务中的表现。