Search | BriefGPT - AI 论文速递

搜索结果 - 200

WaterBench：针对大型语言模型的水印综合评估
为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和评
PDF10 months ago
VerityMath: 自校验实现的数学推理与单位一致性的推动
通过定义单位并确保在数学运算过程中单位的一致性，我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用Unit Consistency Programs（UCPs）为每个问题开发了一个带
PDF10 months ago
寻找长尾：通过逻辑规则引导搜索系统生成长尾知识
大型语言模型，长尾分布，逻辑诱导知识搜索框架，数据集，蕴涵分类。
PDF10 months ago
MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言
PDF10 months ago
前沿语言模型对敌对算术不具鲁棒性，或者说，我需要说些什么，让你同意2+2=5？
我们介绍和研究对抗性算术问题，它为语言模型对齐提供了一个简单但具有挑战性的测试平台。我们提出了一种由自然语言组成的算术问题，其中在问题未完整时插入了一个任意的对抗字符串。即使在1位数加法问题的简单设置中，很容易找到能使所有测试模型（包括Pa
PDF10 months ago
ContraDoc：对大型语言模型中文档中的自相矛盾进行理解
该研究介绍了ContraDoc，这是第一个用于研究长文档中自相矛盾的人工注释数据集，通过分析四种最先进的开源和商业化大型语言模型（GPT3.5、GPT4、PaLM2和LLaMAv2）在该数据集上的能力，发现GPT4表现最佳，但仍然在需要更多
PDF10 months ago
HelpSteer: StreamLM的多属性有益数据集
通过使用 HelpSteer 数据集和 SteerLM 技术训练 Llama 2 70B 模型，我们在 MT Bench 上获得了 7.54 的分数，这是目前不需要更强大模型（如 GPT4）的训练数据的开放模型得分最高的。
PDF10 months ago
医生是否了解如何提示？在临床笔记生成中自动优化提示帮助的需求
研究使用提示工程来提高临床笔记生成中大型语言模型的性能，引入一种自动提示优化（APO）框架来改进初始提示，并比较医学专家、非医学专家以及APO增强的GPT3.5和GPT4的输出结果。结果突显了GPT4 APO在标准化临床笔记各个部分的提示质
PDF10 months ago
CARE：从临床文献中提取实验结果
从文献中提取细粒度实验结果可以为科学应用提供巨大效益，而本研究聚焦于生物医学领域，提出了一种新的信息抽取数据集 CARE （临床聚合导向结果抽取），以提取临床发现结果。在该数据集上对多种最先进的信息抽取系统进行了性能评估，结果表明本数据集的
PDF10 months ago
ShareGPT4V：改进大型多模态模型的更好标题
在大型多模态模型领域，高效的模态对齐对于提升模型性能至关重要，但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈，我们介绍了ShareGPT4V数据集，这是一个包含120万条高度描述性的标题的创新大规模资源，其在多样性和信息内容上超越了现
PDF10 months ago
WorldSense：大型语言模型中基于实例推理的合成基准测试
我们提出了WorldSense，这是一个用于评估LLMs在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天LLMs（GPT3.5，GPT4和Llama2-chat）上运行我们的基准测试，并显
PDF10 months ago
面向基于提示的NLP模型的模板可转移背门攻击
利用GPT4生成模板进行数据无关的迁移攻击，实现对基于提示的自然语言处理模型的优越攻击性能和隐蔽性。
PDF10 months ago
评估VLMs用于基于分数的、多探针注释三维物体
我们提出了一种方法来边际化通过VLM查询变化的任何因素，利用采样响应的VLM分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于Prompt-Chaining
PDF10 months ago
基于人工智能的阿拉伯语填字谜游戏生成用于教育应用
这篇论文介绍了第一个由先进的AI技术驱动的阿拉伯文填字游戏生成器。该系统利用了GPT4、GPT3-Davinci、GPT3-Curie、GPT3-Babbage、GPT3-Ada和BERT等先进的大型语言模型，生成独特而具有挑战性的提示。基
PDF9 months ago
大型语言模型的检索增强多模态思维链推理
使用检索机制动态自动选择基于跨模态相似性的示例，以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例，以增加示例的多样性。通过一系列实验，我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
PDF9 months ago
低限制机制的物理模拟能力
大型语言模型结合计算物理学和编程能力，能够模拟和预测物理世界，但目前的最先进模型在计算物理问题上仍具有显著的失败模式和改进空间。
PDF9 months ago
攻击之树：自动破解黑盒LLM
使用大型语言模型和树状攻击剪枝自动生成越狱（黑盒攻击）的方法，有效地生成恶意、偏见和有毒内容。
PDF9 months ago
估计大型语言模型置信度的方法
评估测量大型语言模型（LLMs）在复杂医学任务中提供诊断建议时的置信度的方法，结果发现 SC Agreement Frequency 是测量 GPT4 置信度最有用的方法。
PDF10 months ago
用户友好和适应性强的判别型人工智能：借鉴LLMs和图像生成模型的成功经验
我们开发了一种新的系统架构，使用户能够像使用生成式AI工具一样与判别模型（如目标检测、情感分类等）进行工作，用户可以轻松提供即时反馈并根据需要调整已部署的模型，从而提高这些传统预测模型的可信度、用户友好性和适应性。
PDF9 months ago
GPT-4在语言语用学中超越人类表现
本研究通过基于对话的任务评估Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示GPT4在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了
PDF9 months ago