- 安全多模学习系统调查
对于多模态学习系统(MMLS),缺乏系统性的安全性研究已成为其发展的重大障碍。本文提出了首个 MMLS 安全性分类法,并从四个关键方面深入探讨了其安全性问题及现有研究的限制,最后指出了 MMLS 安全性面临的独特挑战和未来研究的潜在方向。
- 指令调优的局限性
在本研究中,通过对 LLMs 进行严格实验和深入分析,我们发现 Instruction Tuning 的各种限制,比如 IT 无法增强 LLMs 的知识或技能、从知识来源中复制响应模式会导致响应质量下降、全参数微调会增加虚构错误等。同时,我 - 我们需要专门的事实核实模型吗?以中文为例
本研究调查了语言特定的事实核查模型的潜在益处,重点关注汉语的情况。我们通过翻译中文声明和证据成英文,或直接使用多语言大型语言模型(如 GPT4)的方法的限制,强调了需要语言特定系统的必要性。我们进一步发展了一种最先进的汉语事实核查系统,与之 - 如何评估文学文本中的指代关系?
我们研究了用于评估文本共指的主要度量标准及其限制,并提出了一种新的评估共指的方法,该方法考虑了上下文,特别是小说分析中的长共指链,短共指链和独立元素,以便通过评估获得更可解释和信息量更丰富的结果。
- 探索 ChatGPT 在软件安全应用中的极限
研究论文对大型语言模型(LLMs)在系统安全领域中的影响和局限性进行了探讨,发现 ChatGPT 不仅在生成代码方面有出色的能力,还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能 - 大型语言模型的出现如何影响科学实践?
大型语言模型越来越多地被纳入科学工作流程中,但我们还没有完全掌握这种整合的影响。大型语言模型的出现应该如何影响科学实践?本观点文章邀请了四组不同的科学家来思考这个问题,分享他们的观点并进行辩论。
- KDDLoCoMotif:发现时间序列中的时间扭曲模式
本文介绍了一种名为 LoCoMotif 的新方法,用于识别时间序列中多次出现的模式,克服了现有方法的限制,并通过理疗的实际应用案例和基准数据展示了其价值和性能优势。
- 学习推理技能中长度概括的条件
AI agents rely on reasoning, but large language models (LLMs) have limitations in their reasoning capabilities, particul - FinanceBench: 金融问题回答的新基准
FinanceBench 是一个对 LLMs 在开放式财务问答(QA)中性能评估的首个测试套件,通过对公开交易公司的 10,231 个问题进行测试,发现现有的 LLMs 在财务 QA 方面存在明显的局限性。
- 评估人工智能影响评估:一项课堂研究
通过课堂调查研究,作者发现 AI 影响评估(AIIAs)对参与者对生成型人工智能系统的潜在风险以及 AI 专家在解决潜在危害中所承担责任的感知具有影响,并对现有的 AIIA 工具进行了限制性分析,提出了未来发展和验证 AIIAs 的建议。
- 自动驾驶模拟器调查:分类、挑战和评估指标
该研究论文通过深入审查自动驾驶模拟器,对其发展历程进行三个阶段的分类,并通过功能将模拟器分为五个类别。论文还指出了模拟器面临的一些关键问题,并提供了改进和评估方法,以提高模拟器的效果。
- 多样性和扩散:对稳定扩散下合成图像分布的观察
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
- 人工智能对话聊天机器人的关键作用
在这项研究中,我们探讨了 ChatGPT 在学术背景下的伦理影响、其局限性和特定用户群体可能的滥用情况,并提出了旨在防止不当使用和促进负责任的 AI 交互的架构解决方案。
- 人工智能对齐与社会选择:基本限制与政策影响
RLHF 使用于 LLMs 中,本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。
- 在医学问题回答中探索大型语言模型的领域:观察和开放性问题
通过评估各种流行的大型语言模型对医学问题的知识,我们能够更好地了解它们作为一个群体的特性。从这次比较中,我们提供了初步的观察结果并提出了进一步研究的问题。
- 大型语言模型在概率学习中的潜力:ChatGPT3.5 与一年级计算机工程学生的研究
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大 - 从文本到自我:用户对人工智能在人际沟通和个人方面的潜力的感知
在人工智能中介的交流领域,通过大型语言模型驱动的工具对人际交流具有重要作用。本研究采用混合方法,进行了为期一周的日记和访谈研究,旨在探索用户对这些工具在短期和长期可带来的能力的感知。研究结果表明,参与者积极评价人工智能中介交流的支持功能,认 - 深度强化学习在机器调度中的应用方法、现状和未来方向
深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较,发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法,但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制,解决这些挑战将 - 利用人工智能生成代码的创新数字故事叙述研究与探讨
探索 AIGC 与数字讲故事的当前整合状态,通过一个示范项目研究其融合的艺术价值并通过采访解决常见问题,得出结论:尽管 AIGC 在图像创作、配音制作和音乐创作方面表现出色,但由于人类创造力和审美感在复杂角色动画、面部表情和音效方面的不可取 - 可解释人工智能中因果关系的作用
通过研究文献,我们发现因果关系和可解释人工智能 (XAI) 是紧密联系的,彼此之间存在三种关系视角:缺乏因果关系限制了当前人工智能与可解释人工智能方法的发展,理想的解释形式的探索,以及因果关系作为可解释人工智能的先导,并通过从因果关系中借用