Dec, 2022

评估人类语言模型交互

TL;DR本文通过开发人工智能与自然语言交互评估(HALIE)框架,进行基于人的语言模型交互评估,包括交互过程、第一人称主观体验和执行效果等方面,设计并测试了五种交互式任务,研究了四种先进的语言模型,发现非交互式的性能并不总是导致更好的人工智能与自然语言交互,并且第一人称和第三方评价的指标可以有所区别,因此研究人工智能与自然语言交互的微妙差别非常重要。