利用 LabGym 人工智能自动识别日本猕猴的搬运行为
研究表明 LLMs(大型语言模型)可以在 Towers of Hanoi 相关任务中生成近乎最优解,体现出计划能力和高效工作记忆利用率,这暗示了一种潜在的执行功能发展,但这些能力相对有限,而非经过充分训练的人类表现更好
May, 2023
人工智能伦理和工程领域尚未充分认识到大型语言模型(LLMs)对动物将产生巨大影响,而本研究构建了一个评估系统来评估 LLM 对动物利益的考虑度,并指出模型的结果可以通过更完善和验证的系统得到改善和缓解,为将动物伦理纳入人工智能提供了一种可能的方法。
Mar, 2024
利用生成式人工智能建立反馈丰富的社会系统计算模型,通过生成代理基于模型(GABMs),将人类决策过程在社会环境中进行模拟,并探讨了社会规范扩散的一种简单 GABM 模型,以及该模型在不同情境下的敏感性和重要性。
Sep, 2023
研究了大型语言模型与人类元认知在国际教练联合会(ICF)模拟考试中的元认知能力,结果发现大型语言模型在几个元认知指标上表现优于人类,尤其是在减少自负方面,但无论是语言模型还是人类在模糊场景中都缺乏适应性,倾向于遵循预先定义的决策框架。研究结果对开发辅助掌握教练能力的人工智能模拟器以及发展朝着更自主和直观的人工智能系统的元认知模块具有重要意义。
May, 2024
最近自然语言和大型语言模型的进展使得 AI 代理能够模拟人类一样的虚拟世界内互动,但是这些互动在复杂性和灵活性方面仍然存在限制,特别是涉及多个角色和新颖对象的场景。为了解决这些问题,我们提出将虚拟游戏主持人整合到代理的世界模型中,借鉴桌面角色扮演游戏的灵感。这个模型可以解决目前世界模型的不足之处,向代理提供信息,估计玩家的意图,提供环境描述和反馈。为了帮助未来探索复杂互动,我们引入了一个名为 Tachikuma 的基准测试,它包括一个基于多角色和新颖对象交互估计的任务(MOE)和一个支持的数据集。MOE 挑战模型理解角色的意图,并准确判断它们在涉及多角色和新颖对象互动的复杂环境中的行动。此外,该数据集捕捉了游戏过程中实时通信的日志数据,为进一步研究提供了多样、有根据的和复杂的互动。最后,我们提出了一个简单的提示基线,并评估其性能,证明其在增强交互理解方面的有效性。我们希望我们的数据集和任务能够激发关于自然语言复杂互动的更多研究,促进更先进的 AI 代理的发展。
Jul, 2023
我们通过在 6 个任务上进行广泛的评估,发现虽然 LLM 表现出某些神经理论社交认知能力,但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素,并发现 LLM 难以应对对抗性例子,这表明它们依赖于浅层启发式算法,而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。
May, 2023
该研究比较了 ChatGPT 和 32 门大学课程学生的表现,发现 ChatGPT 在许多课程中的表现相当,甚至优于许多学生。此外,其使用也难以被 AI 文本分类器可靠地检测出来,并且出现了学生使用该工具和教育者将其视为抄袭的共识,这些发现为 AI 融入教育框架的政策讨论提供了指导。
May, 2023
研究论文探讨了生成人工智能(GAI)模型,如 ChatGPT,对大学生和高等教育机构的影响,采用综合调查和情景分析的混合方法,结果表明当前技术在学术上的使用对学生取得学业目标有积极帮助,但是技术的不负责任和过度使用可能会带来重大挑战,因此高等教育机构需要制定严格的政策、重新评估学习目标、提升讲师能力、调整课程并重新考虑考试方式。
Apr, 2024
AI biases in detecting objects and people in the environment have been explored, but this case study pioneers an exploration into the attitudes of AI towards nature, revealing anthropocentric biases; through experiments and real-life interactions, participants engaged with ChatGPT to co-create narratives with ecocentric attributes, emotions, and views, resulting in amplified ecocentric exchanges and the plan to expand ecocentric materials.
Dec, 2023