- 迷失于能力中:评估解释对用户对视觉问答系统的心智模型的影响
我们研究了当一个 AI 系统遇到一项不能完美执行的任务时,用户如何看待其限制,并且提供解释是否有助于用户构建系统能力和限制的适当心理模型。通过控制视觉输入,在视觉问答解释任务中,我们操控 AI 系统的限制:在推理过程中,该系统可以处理全彩色 - LLMs 能否通过程序在复杂环境进行推理?
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了 LLMs 的推理能力,揭示了其存 - 通过有效的预训练任务提升图表问答能力
为了解决现有视觉问答模型在图表问题上的不足,本研究通过行为分析,提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解,将预训练模型(MatCha-v2)应用在三个图表数据集上,相比基准模型,性能平均提升了 1.7% - 商业中 LLM 益处的实际检验
大型语言模型(LLMs)在理解和生成任务方面取得了显著的表现,但其在偏见、上下文理解和对提示的敏感性方面存在限制,因此对其在实际应用中的准备性产生了担忧。本文通过对四个可访问的 LLMs 使用真实世界数据进行的实验,深入研究了 LLMs 在 - 利用地理第三定律进行道路网络表示学习
通过使用地理配置感知的图增强和谱负采样的新型图对比学习框架,本文提出了一种将道路网络表示赋予地理第三定律的方法,以实现道路段具有类似地理配置的段生成类似表示,以及相反情况下的对齐。该框架通过双对比学习目标有效平衡了第一定律和第三定律的影响, - ACL揭示大型语言模型在从表格中获取信息方面的局限性
本文介绍了一种可靠的用于表格信息检索(TabIS)的基准评估方式,揭示了大型语言模型(LLMs)在从表格中获取信息方面存在的限制和潜在挑战。
- LLMs 错误的简单问题
我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题,它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误,并强调了更好的训练方法的 - 修复偏见:准确无偏图像生成的途径
通过用户定义的掩码和修复技术,引入修复偏差框架以提高图像生成的准确性,特别是对于新颖或不准确渲染的对象。通过实验验证,我们证明了该框架显著提高了生成图像的逼真度,从而扩展了模型的创造能力并减轻了偏见传承的风险。
- 通过混合掩膜信息融合提升文本到图像编辑
基于扩散模型,本文旨在系统性地改进文本引导的图像编辑技术,以解决其局限性,通过在模型的自注意机制中引入人为注释来限制编辑范围,并将编辑后的图像与源图像和构建的中间图像进行融合,实验证明所提出的 ``MaSaFusion'' 显著提高了现有的 - 为何解释失败?XAI 中失败的分类和讨论
机器学习解释的复杂性和局限性对解释的解读产生了多重影响,本研究对现行可解释人工智能方法的局限性进行了系统调查,并提出了一种分类框架来揭示解释失败的复杂性。
- MHPP: 探索语言模型在基本代码生成之外的能力和局限性
最近大型语言模型(LLMs)在代码生成方面有了显著进展,但现有的基准测试无法全面评估 LLMs 在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试(HumanEval 和 MBPP),我们的研究发现由于质量、难度和细度的限制,这些 - 跨语言评估 ChatGPT 的数学能力
本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力,并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性,并提供了当前的限制。
- CVPR失落的旋律:从叙事视角的文本到视频生成的实证观察
本文从故事讲述的角度对文本到视频生成进行了研究,指出了当前文本到视频生成方案的局限性,并提出了一个用于视频故事方面的评估框架,并讨论了未来的发展方向。
- 通过深度生成模型学习结构因果模型:方法,保证和挑战
本文全面综述了深度结构因果模型 (DSCMs) 的特点以及其在使用观测数据回答反事实查询方面的能力,分析了其关于深度学习组件和结构因果模型的假设、保证和应用,深入理解其在不同反事实查询情境下的能力和限制,同时强调了深度结构因果建模领域面临的 - 多任务多语言语音模型的高效压缩
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多 - 关于修正 SHAP 分数
本篇论文通过探讨 SHAP 得分中存在的问题以及特征函数的影响,提出了几种新的特征函数来替代现有的函数,以消除 SHAP 得分的一些限制。
- 量子启发的张量网络技术在工业环境中的应用
本文研究了量子启发式算法和张量网络在工业环境和背景中的适用性和可行性,并通过对可用文献的编译和受其方法影响的使用案例分析,来分析这些技术的局限性以确定其潜在可扩展性。
- 大型语言模型中面向组合通用语义解析的研究综述
本文对最近在分析、方法和评估方案上的进展进行了综述,为从业者和研究人员在这一领域提供了一个起点。
- AI 解码:ChatGPT 中数据分析的内幕故事
最近人工智能生成技术的快速发展使得数据科学领域发生了各种变化。本文批判性地审查了 ChatGPT 在广泛任务中的数据分析能力,尽管数据分析为研究者和实践者提供了前所未有的分析能力,但它远非完美,重要的是要认识和解决它的局限性。
- 亚伯杀该难以捕捉的机器翻译问题
通过对机器翻译服务的翻译错误进行观察和分析,本文旨在揭示基于人工智能的自动翻译器在结构上无法完全捕捉的问题,并提出了对翻译理论和技术的修订建议,特别关注文化文本的翻译。