Apr, 2024

ChatGPT 对输入扰动下信息提取的可靠性有多高?

TL;DR通过对两个命名实体识别数据集进行自动和人工评估的系统分析,发现 ChatGPT 在一些少见的实体替换(如药物或疾病)方面表现相对脆弱,不同类型的实体特定和上下文特定扰动导致相同实体的解释质量有显著差异且可通过上下文学习显著改善,并且对于大多数不正确的预测过于自信,可能给最终用户带来错误引导。