BriefGPT.xyz
大模型
Ask
alpha
关键词
challenge set
搜索结果 - 2
机器翻译元评估通过翻译准确度挑战集
介绍了一个跨越 146 种语言对的对比挑战集 ACES,以发现度量标准是否能够识别 68 种翻译准确性错误,并通过对 WMT 2022 和 2023 度量标准共享任务中的 50 个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性
→
PDF
5 months ago
非派生子序列对自然语言推理的挑战
本文介绍一个挑战集用以测试 NLI 系统是否使用了一个启发式方法:假设一个句子包括了其所有子序列,如 “Alice 相信 Mary 在说谎” 就包括了 “Alice 相信 Mary” 等。作者评估了几个有竞争力的 NLI 模型并发现了有力的
→
PDF
6 years ago
Prev
Next