Sep, 2023

Donkii:指导调校数据集中的注释错误检测方法能否发现错误?

TL;DR在这项研究中,我们提出了一个新的AED基准测试:Donkii,它包含了三个经过专家和半自动方法注释的指导调整数据集。我们发现这三个数据集中包含明显的错误,有时直接传播到指导调整的LLMs中。我们提出了四个适用于生成设置的AED基准,并在新引入的数据集上进行了全面评估。我们的结果表明选择正确的AED方法和模型大小确实至关重要,从而得出了实际建议。为了获得更多见解,我们提供了第一个案例研究,以检查指导调整数据集的质量对下游性能的影响。