Feb, 2024

让 LLMs 应对最新挑战!一个中文动态问答基准测试

TL;DR为了提高中文大型语言模型(LLMs)的问答能力,本文引入了 CDQA,这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准,通过人工和模型相结合的流程获得高质量的数据,根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能力,我们还评估和分析了 CDQA 上的主流和先进的中文 LLMs,广泛的实验和有价值的见解表明我们提出的 CDQA 是具有挑战性和值得进一步研究的,我们相信我们提供的基准将成为未来改善 LLMs 中文问答能力的关键数据资源。