Search | BriefGPT - AI 论文速递

搜索结果 - 200

移动之前进行讨论：通过多专家讨论进行视觉语言导航
通过与专家的讨论，我们引入了一种新的零射击视觉语言导航框架，命名为DiscussNav，能够有效地增强导航性能。
PDFa year ago
Safurai 001：面向代码LLM评估的新定性方法
Safurai-001是一个新型的大型语言模型，具有显著的编码辅助潜力。通过在数据工程方面的进展以及指令优化，它旨在提供更具对话性的互动。该论文还介绍了基于GPT4的多参数评估基准，以全面了解模型的功能和性能。评估结果表明，Safurai-
PDFa year ago
OpenAi的GPT4作为编码助手
本文研究了GPT3.5和GPT4作为编码助手的性能，测试结果表明GPT4具有卓越的性能，可以提高程序员的生产力并重组基于这些新工具的软件开发流程。
PDFa year ago
解码图像：释放大型语言模型
通过一项挑战-回应研究，我们对Google Bard进行了64个视觉挑战，旨在探查多模式大型语言模型（LLMs）的能力。我们的发现表明，Bard在确定图像中的线索时更倾向于根据直觉做出猜测，并且不依赖于OCR库而使用类似Google Len
PDFa year ago
DyVal：基于图信息的大型语言模型动态评估
本文介绍了DyVal，一种新颖、通用、灵活的评估协议，用于动态评估大型语言模型，根据该框架，借助有向无环图的结构优势，动态生成具有可控复杂度的评估样本，并在数学、逻辑推理和算法问题等推理任务上生成挑战性的评估集，实验证明大型语言模型在DyV
PDFa year ago
可疑-代理人：利用心灵理论在察觉不完全信息游戏中玩耍的GPT4
研究论文提出的Suspicion-Agent是一种基于GPT-4的创新代理器，利用其卓越的知识检索和推理能力，在不完美信息卡牌游戏中展示出卓越的适应性和规划策略，同时表现出较传统算法更好的性能。
PDFa year ago
GenSim：通过大型语言模型生成机器人仿真任务
通过使用语言模型生成丰富的仿真环境和专家演示，在模拟数据上进行多任务策略训练，极大地增强了任务级泛化能力，并实现了对未见过的现实任务的强大转移能力。
PDFa year ago
填空题：探索和增强LLM在数学应用问题中倒向推理的能力
本文研究倒向推理任务在数学问题中的应用，并提出了三种新技术以及一种基于贝叶斯公式的集成方法，这些方法显著提高了语言模型在倒向推理任务上的性能。
PDFa year ago
通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision及其后续探索
通过PCA-EVAL基准和HOLMES多智能体协作框架的比较，我们发现GPT4-Vision模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比GPT4-HOLMES高出3%，但这种性能仅适用于最新的GPT4-Vision模型，超过
PDFa year ago
在协调游戏中使用概率短语：人类对GPT-4的对比
英语演讲者使用概率短语例如'likely'来传达关于事件概率或可能性的信息。人类参与者和GPT4模型在评估概率和模糊性方面具有较高的一致性，但在模糊性方面存在较大差异。
PDFa year ago
利用大型语言模型进行实体匹配
通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的LLMs (如GPT3.5和GPT4) 以及基于Llama2的开源LLMs进行了评估，在零-shot场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零-shot场
PDFa year ago
GPT-3家族大型语言模型综述，包括ChatGPT和GPT-4
这篇综述论文总结了关于GPT-3家族大型语言模型的最近研究进展，并指导研究社区未来发展方向。
PDFa year ago
GPT-4 不自知错误：对推理问题的迭代提示分析
本研究分析了大规模语言模型在迭代提示下解决图着色问题的能力，发现大规模语言模型在解决图着色问题和验证解答的效果都很差，且无论是来自大规模语言模型还是外部求解器的批评内容对迭代提示的性能影响不大，结果显示现有大规模语言模型的自我批评能力存在问
PDFa year ago
探索大型语言模型在初级编程课程中生成追踪代码问题的潜力
我们探讨了在初级编程课程中应用大型语言模型（LLM）生成代码追踪问题的方法，通过设计指导GPT4生成基于代码片段和描述的代码追踪问题的有针对性提示，并建立了一套人工评价指标，用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了
PDF10 months ago
KITAB: 对于信息检索的约束满足性评估LLMs
我们研究了目前最先进的模型在回答信息检索的约束满足查询（例如“圣地亚哥的冰淇淋店列表”）方面的能力。我们介绍了KITAB数据集，它包括与600多位作者和13000多个查询相关的图书相关数据，并提供了相关的动态数据收集和约束验证方法，以获得其
PDF10 months ago
引导 LLM 自欺：自动操纵机器阅读理解快捷触发器
近期应用于机器阅读理解（MRC）系统的LLMs显示出了令人印象深刻的结果，但使用的快捷方式，即特征与真实标签表面相关的机制，已成为其可靠性的潜在威胁。我们从两个角度分析了问题：LLMs作为编辑器，被引导编辑文本以误导LLMs；LLMs作为读
PDF10 months ago
评估跨领域文本到SQL模型和基准
通过对几个重要的跨领域文本到SQL基准进行广泛的研究和重新评估，本文发现由于提供的样本可能有多个解释，这些基准的完美表现是不可行的，并且在重新评估后，模型的相对性能会发生变化。最令人瞩目的是，我们的评估发现，最近基于GPT4的模型在人工评估
PDF10 months ago
Chat GPT能解决语言学考试吗？
研究通过使用 ChatGPT4，即使用语言模型 GPT4 的 ChatGPT 的版本，评估其是否能够成功解决介绍性语言学考试。结果表明，该语言模型在解释复杂且嵌套的任务方面非常成功，但在分析形态和短语方面表现较差。在简单情况下，其表现尚可，
PDF10 months ago
u-LLaVA: 通过大型语言模型统一多模态任务
通过将LLM作为连接多个专家模型的桥梁，采用u-LLaVA方法来解决多模态LLM在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。
PDF10 months ago
走向语言模型蒸馏中的能力差距之法则
利用大型教师语言模型（LM）向小型学生语言模型（LM）进行知识提取是一个热门领域。本文揭示了容量差的最佳点对教师LM和学生LM之间的实用性影响，同时呈现了一种新的计算性能平衡的学生LM模型（MiniMA），在GPT4评估中表现出色，并能与几
PDF10 months ago