Feb, 2024

FactPICO:医学证据的简化语言摘要的事实性评估

TL;DRFactPICO 是一个针对医学文本的纯文本摘要事实性基准,通过细致评估和专家的自然语言解释,评估了基于 LLMs 的三种纯文本摘要生成模型(GPT-4,Llama-2 和 Alpaca)生成的 345 个 RCT 摘要的事实性,解析了 RCT 的关键元素(人口、干预措施、比较、结果)以及相关发现的准确性,也评估了 LLMs 添加的额外信息(如解释)的准确性,研究发现纯文本医学证据的摘要仍然具有挑战性,尤其是在简单性和事实性之间的平衡,并且现有的度量方法与专家判断在实例级别上的相关性较差。