探讨社交媒体用户主观立场
本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法,并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文,以提高开放域对话系统的能力。
Jun, 2022
通过神经激活语言模型,线性解码不同代理人的信念状态,发现其内部包含了自我和他人信念的表征,这些表征对社会推理过程具有关键作用,同时在不同因果推理模式的多种社会推理任务中表现出潜在的泛化能力。
Feb, 2024
研究通过使用计算物理引擎作为输入,将语言模型中的推理过程与现实社会有机结合,让模型具有更加精准有效的推理能力,以达到人类与 AI 之间成功和有效的交流。该研究的实验证明 Mind's Eye 可以在物理对齐基准测试中改善模型推理能力 27.9%(零击中率)和 46.0%(少量击中率),较小的语言模型具有 Mind's Eye 也能获得类似的性能。
Oct, 2022
本文提出了一个针对图像和文本领域使用的人类注意力基准,使用多层人类注意力蒙版的评估方法评估了使用 Grad-cam 和 LIME 技术获得的模型显著性解释,并通过比较单层对象分割掩码评估的主观评分和基准阈值不可知的评估方法的效果,表明我们的基准更加有效。同时,本文的实验还揭示了主观评分中的用户偏见。
Jan, 2018
本文探讨在多任务学习设置中,使用主观评估作为语言生成模型训练的一部分,并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示,多任务学习的模型生成的话语在主观上评分最高,且在推动对话发展、无冒犯性等方面得分最高。因此,将来可以研究将主观人类评估纳入语言生成模型训练中,从而在开发过程中更好地与人类用户进行交互。
Apr, 2021
本文从经验和理论角度出发,探究了现代 NLP 系统中的社交智能和心理理论的问题,并使用 SocialIQa 和 ToMi 任务检验了 GPT-3 的社交智能和 Theory of Mind 的能力,结果表明 GPT-3 在这些任务中存在严重的不足,进而考虑从人为中心的 NLP 方法入手可能会更加有效。
Oct, 2022
通过评估大量语言暴露对理解心灵理论的影响,发现语言的统计学学习能够部分解释人类认知发展中心灵理论的发展,但是其他机制也起到重要作用,因为最先进的语言模型 GPT-3 尽管暴露于更多的语言环境下,但其表现并不能完全解释人类的行为
Sep, 2022
通过整合个体感知信号来提高个体用户与机器学习系统之间的相互适应对个体预测性能具有宝贵的启示,不仅可以提高个体用户的整体预测性能,还可以推动人工智能系统朝着每个人的个性化期望和价值导向发展。
May, 2024
本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。
Jun, 2023
本文阐述 “数据透视主义” 的概念,提出通过采取人类主体在机器学习过程中所涉及到的知识表达方法,来代替传统的黄金标准数据集。文章探讨了如何在实践中采用透视主义态度来解决主观和客观机器学习任务的问题,并提出相关建议和研究议程。
Sep, 2021