Search | BriefGPT - AI 论文速递

搜索结果 - 200

降低成本：优化 LLM 的 KV-Cache 消耗方法综述
大型语言模型（LLMs）通过其先进的语言理解能力在各个行业中引起了革命，但其效率受到 Transformer 架构在处理长文本方面的困难的挑战。KV-Cache 作为解决这个问题的关键方案之一，将令牌生成的时间复杂度从二次降为线性，但增加了
PDF2 days ago
PyBench: 在多种真实编码任务上评估 LLM Agent
LLM Agent 能够自动解决实际的编码任务，而为了解决现有基准测试的不足，我们引入了 PyBench 这个基准测试，它涵盖了五大类实际任务，要求 LLM Agent 具有对 Python 包的全面了解、卓越的推理能力以及能够融入执行的代
PDF4 days ago
通过 LLM 协助支持老年人的数字自主权
通过提供必要的支持，LLM 能帮助年长者安全地实现数字自主，以解决因数字鸿沟而造成的困境。
PDF5 days ago
基于 LLM 编码与伪事件调控的视频时刻检索中的先验知识整合
通过研究大型语言模型（LLMs）在视频时刻检索（VMR）中整合通用知识和合并伪事件作为先验的可行性，本研究提出了使用 LLM 编码器而非解码器以克服 LLMs 的限制，有效改进多模态嵌入中的概念间关系，并展示了该方法在 VMR 中实现了最先
PDF6 days ago
基于 LLM 的藏区旅游观点信息生成系统研究
该研究探讨了信息差异对西藏旅游业的影响，并解决了建立大型语言模型评估标准的挑战。引入了一种创新方法，即 DualGen Bridge AI 系统，采用监督微调技术来增强模型功能和优化流程，并开创了多结构生成结果评估框架。实证验证证实了该框架
PDF9 days ago
基于《我的世界》建筑对话代理任务的 LLM 基准
我们提出将 Minecraft 构建任务调整为适用于评估 LLM 在空间导向任务中的能力并提供构建代理设计的基准，与之前的工作不同，我们尝试提供一个全面的综合性合成基准来测试构建代理在一系列包含常见建筑操作的不同任务上的性能，我们相信这种方
PDF10 days ago
LLM 推理服务：近期进展和机遇的调查
本文概述了近年来大型语言模型（LLM）服务系统的最新进展，重点关注 2023 年以来的研究。通过选择和审查高品质的机器学习和系统会议的论文，我们特别研究了在不改变核心 LLM 解码机制的情况下改善性能和效率的系统级增强。本文强调了部署和扩展
PDF10 days ago
机器人个性的美德：个性与 LLM 安全的关系
人格心理学家分析了人类社会中人格与安全行为之间的关系。本研究旨在发现大型语言模型（LLMs）的个性特征与其安全能力之间的紧密关联，并通过 MBTI-M 规模发现了毒性、隐私和公平性等个性特征。此外，研究还发现不同个性特征的 LLMs 对越狱
PDF10 days ago
ACL古代韩国档案翻译：基于统计短语对齐、LLM 上下文学习和跨方法论方法的比较分析
通过比较三种翻译古代文本的方法（短语对齐、上下文 LLM 学习和使用源 - 目标语料库的句子片段令牌的统计机器翻译方法），本研究指出所提出的方法在 BLEU 分数上取得了 36.71 的性能，超过了 SOLAR-10.7B 上下文学习和最好
PDF11 days ago
增强基于 LLM 文本表示的药物推荐
利用大型语言模型（LLM）文本表示增强药物推荐的方法，能够有效地提高药物推荐性能，包括结构化数据和非结构化数据的组合表示，可应用于其他模型以实现改进推荐。
PDF12 days ago
KDDGraphEval：基于知识图谱的 LLM 幻觉评估框架
利用知识图谱结构进行大型语言模型 (LLM) 的幻觉评估，发现特定的三元组更容易产生幻觉；同时与最先进的自然语言推理模型结合使用能够提高各种幻觉基准上的平衡准确性；最后通过利用知识图谱结构进行幻觉纠正，证明大多数幻觉确实可以被矫正。
PDF12 days ago
为印度语言构建预训练 LLM 数据集：以印地语为例研究
本文介绍一种大规模预训练数据集的方法，可用于 Indic 语言 Hindi，包括多个方言。该数据集包含 12.8 亿个 Hindi 令牌，可用于 LLM 预训练和研究目的，且可以轻松扩展到其他 Indic 语言和资源匮乏的语言。
PDF14 days ago
关于 LLM 应用商店的 (不) 安全性
在本研究中，我们提出了一个三层的关注框架来识别 LLM 应用的潜在安全风险，其中包括具有滥用潜力的 LLM 应用、具有恶意意图的 LLM 应用和存在可利用漏洞的 LLM 应用。通过静态和动态分析、建立包括 31,783 个条目的大规模有害词
PDF16 days ago
PsycoLLM: 提升心理理解与评估的 LLM
最近几年，心理健康问题引起了广泛关注，大型语言模型（LLM）因其在文本理解和对话方面的能力，可以成为缓解这一问题的有效技术。然而，现有研究在该领域通常存在一些限制，如在缺乏关键先前知识和证据的数据集上进行训练，以及缺乏全面评估方法。本文提出
PDF19 days ago
$R^2$-Guard: 通过知识增强的逻辑推理实现强化的 LLM 防护栏
提出了 $R^2$-Guard，一种通过知识增强的逻辑推理实现的稳健推理型 LLM 安全防护措施，通过在数据驱动的防护模型和基于概率图模型的推理组件之间嵌入安全知识实现对各个安全分类的有效推理和辨别，有效性经过与八个强防护模型的对比以及对四
PDF19 days ago
利用 LLM 中的任务特定知识进行半监督三维医学图像分割
LLM-SegNet 通过利用大型语言模型将任务特定知识融入我们的协作训练框架中，从而有效地利用无标注数据进行学习，最终达到更高效的分割效果。此外，为了进一步减少错误分割，我们提出了一种统一分割损失函数，它不仅优先考虑模型在前景和背景像素预
PDF21 days ago
ACL基于语义图的语法简化：从 LLM 时代再探讨
通过 AMRS$^3$ 方法，我们发现语义图在句法简化中具有帮助作用，并提出了 AMRCoC 方法来引导 LLM 在 AMR 图上执行符号推理算法，从而提高语义中心任务（如句法简化）的性能。
PDF23 days ago
Q-Adapter: 将您的 LLM 适配器训练为残差 Q 函数
本论文介绍了一种名为 Q-Adapter 的新方法，该方法通过在下游偏好数据上学习一个逼近残差 Q-function 的模块，以定制化预训练的大型语言模型 (LLM)，在多个任务和安全对齐任务的实验中展现了对防止遗忘和学习新偏好方面的卓越性
PDF23 days ago
问题分析提示提高推理任务中的 LLM 性能
尽管 LLMs 在许多领域具有潜力，但在推理任务上仍不如人类表现出色。本研究探讨了一个问题：让 LLM 分析问题是否能提高其性能？我们提出了一种新颖的提示策略，称为问题分析提示 (QAP)，模型在解决问题之前被提示用 $n$ 个词解释问题。
PDF23 days ago
DART: 深度对抗自动红队针对 LLM 安全
使用深度对抗自动化红队技术（DART）框架，在目标大型语言模型（LLM）的动态演进过程中，通过红色 LLM 自动生成对抗性提示，监控全局攻击多样性，并通过主动学习数据选择机制来提高目标 LLM 的安全性，从而显著降低了目标 LLM 的安全风
PDF23 days ago