Jun, 2024

理解理解:受大型语言模型驱动的实用框架

TL;DR通过随机采样和应用概率置信边界,我们提出了一个测试任何机器或人类是否理解一门主题的框架,其中包括确定问题范围、要求一般能力和避免荒谬答案,但允许某些问题的错误和 “我不知道” 答案。根据我们的框架,目前的大型语言模型不能说理解非平凡领域,但这个框架提供了一个测试理解的实用方法,也是构建理解型人工智能代理的工具。