- 评估 GPT4-V 在结构化推理任务上的表现
最近,GPT-4语言模型与视觉能力相结合,我们对GPT-4V和其他五个基准模型进行了提示评估,包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的Chain-of-Thought,在多模态LLMs上的扩展,在基准模型上取得了 - VIEScore:面向条件图像合成评估的可解释度量
本文介绍了VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估VIESCORE,我们发现:( - 通过引发幻觉减轻大型语言模型的幻觉
提出的“感应-对比解码”策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
- 梯度下降学习的超参数化Transformer分类器的收敛速度
通过研究基于生成性预测变压器的语言模型 ChatGPT,本文综合考虑模型逼近能力、泛化能力和基于具体数据集的优化,给出了对变压器网络在误分类概率上限的理论界限,并以自然语言分类问题为背景进行探讨。
- LLM-Assist: 基于语言推理增强闭环规划
通过结合传统规则基于的规划器与基于大型语言模型的规划器,利用LLMs的常识推理能力解决自动驾驶车辆面临的复杂场景,实现了最先进的性能,超越了所有现有的纯学习和基于规则的方法。
- LMaaS:大型模型作为服务的定价策略探索
本文提出了Large Model as a Service (LMaaS)的概念,将大型模型的灵活租赁作为智能通信的一种策略,通过优化定价和选择决策来解决动态和异质客户环境下的定价优化问题。
- 增强大型语言模型所需的法术书
我们提出了一种称为SLEICL(Strong LLM Enhanced ICL)的方法,通过从强语言模型学习例子并将其总结和转移给弱语言模型来确保ICL的稳定性和有效性,从而使弱语言模型在零样本或少样本情况下在多个数据集上取得了持续的提升。
- 评估基于脑启发的模块化训练在机制可解释性的自动电路发现中的应用
研究评估了一种称为Brain-Inspired Modular Training (BIMT)的新方法,通过改善神经网络的可解释性,显著提高了自动电路发现的效率和质量,同时超越了现有模型在电路质量、发现时间和稀疏性方面的性能。
- BOK-VQA:基于外部知识的双语视觉问答系统:图表示预训练
提出了一种多语言知识外部问答(BOK-VQA)数据集和一个框架,通过图嵌入的形式有效地将知识信息注入到问答系统中,并通过深入分析证明了构建训练数据中包含的知识信息对于问答系统的实际效果。
- Leeroo Orchestrator:通过模型集成提升LLMs性能
我们提出了一种架构,利用多个经过训练的LLMs的集体知识创建了一个新的最先进模型。核心是一个基于LLM的编排器,能够选择最佳的底层LLM专家进行任务执行。通过自我对弈的灵感,我们创建了一个查询生成、编排和评估的循环,以生成编排器的训练数据。 - 我们需要专门的事实核实模型吗?以中文为例
本研究调查了语言特定的事实核查模型的潜在益处,重点关注汉语的情况。我们通过翻译中文声明和证据成英文,或直接使用多语言大型语言模型(如GPT4)的方法的限制,强调了需要语言特定系统的必要性。我们进一步发展了一种最先进的汉语事实核查系统,与之前 - ChIRAAG:ChatGPT知情快速自动断言生成
通过大语言模型 (LLM) 设计了一种新型流程,从自然语言规范中生成英语语言、线性时态逻辑和 System Verilog Assertion (SVA) 的断言,并使用测试平台验证生成的断言,验证结果表明 LLM 可以简化断言生成工作流程 - 通过激活转向技术研究 Llama 2 Chat 中的偏见表达
大型语言模型中存在的社会偏见,尤其是与性别、种族和宗教有关的偏见,通过激活导向法得以探测和缓解,而强化学习反馈似乎会增加模型对不同形式社会偏见的相似度,这对于提供红队(进攻方)策略以及整合拒绝向量的重要性提供了有价值的见解。
- 大型语言模型中的检索增强生成的开发与测试--一份案例研究报告
大型语言模型(LLMs)在医疗应用中具有重要潜力,而检索增强生成(RAG)被认为是一种有前景的方法来定制LLMs中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的LLM-RAG流程,验证了其可行性。
- Aalap: 为印度法律和律师助理功能提供的AI助手
使用Aalalp模型能够更好地解决数据隐私、数据异构性、领域知识复杂性以及领域目标独特性等挑战,主要关注法律推理而非法律记忆,对律师、法官和从事法律系统工作的人非常有帮助。
- LLMs模拟五大人格特质:进一步证据
对Llama2、GPT4和Mixtral等大型语言模型对五大人格特质进行仿真的实证研究,分析了这些模型所模拟的人格特质及其稳定性,这有助于更深入地了解LLMs模拟人格特质的能力以及对个性化人机交互的影响。
- LLM投票:人类选择与AI集体决策
通过调查大型语言模型(LLMs),特别是OpenAI的GPT4和LLaMA2的选举行为及其与人类选举模式的一致性,本研究通过人类投票实验和与LLM代理人的平行实验,着重研究了集体结果和个人偏好,揭示了人类和LLMs在决策和固有偏见方面的差异 - 提升大规模语言模型在狼人杀游戏中的推理能力
本文提出了一种创新的框架,将大型语言模型(LLMs)与外部思考器模块相结合,以增强基于LLM的代理机构的推理能力。该框架形成了一个推理层次结构,其中LLMs处理直觉性的System-1任务,而思考器专注于需要复杂逻辑分析和领域特定知识的认知 - Rec-GPT4V:大型视觉语言模型的多模态推荐
利用大型视觉-语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉-语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
- 学习如何提问: 循环一致性优化多模态基础模型的提示
探索从生成结果到任务规范的可能性,使用循环一致性损失来强化模型性能,无需昂贵的微调、训练数据或外部环境,使用自我监督学习进行提示,用于代码生成和图像描述任务,在多个基准测试中取得了优异的结果。