Mar, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致?

TL;DR本研究探索了大型语言模型在人机交互领域的表现,对比实际参与者的答案,结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好,但在判断人机行为差异方面成绩不佳,同时指出视觉模型无法完全抓住视频刺激的本质,且大型语言模型对不同沟通行为的评分和行为可取性分数较高。