test suite | BriefGPT - AI 论文速递

关键词test suite

搜索结果 - 5

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成
在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了
PDFa month ago
中文话语表征结构分析
本文探索了在没有中文标注数据的情况下实现中文语义分析的可行性，描述了线性化的中文意义表示数据的自动收集流程，提出了专为中文语义分析设计的测试套件，阐述了中文语义分析的困难主要是由副词引起的，经实验表明采用机器翻译和英文解析器实现中文语义分析
PDFa year ago
文档级神经机器翻译的话语衔接评估
该研究提出了一种文档的连贯性评估方法（DCoEM），在考虑了四种连贯方式（参考，连词，替换和词汇连贯）的情况下，为测量文档翻译的连贯性做出贡献，并通过最近的文档级 NMT 系统的评估结果表明我们的方法在评估文档级翻译方面是实用和必要的。
PDF2 years ago
使用测试套件对德英机器翻译进行语言评估
本文介绍了应用语法测试套件对 WMT19 提交的德语 - 英语机器翻译系统的结果，其中包含 107 个类别的详细分析。研究表明，这些系统中有四分之一的测试项目翻译错误率仍很高，其中包括习语、动词语态等。与去年相比，功能词、非动词一致性和标点
PDF5 years ago
基于测试套件的德英机器翻译的细粒度评估
本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。
PDF5 years ago