May, 2024

成语处理中的质量、数量和语境:少即是多吗?

TL;DR通过在公共领域图书文本中替换可能成语化的英语名词复合词的同义词,我们创建了名词复合同义词替换数据集,探讨了用于成语性检测模型训练时数据数量和质量之间的平衡,同时考虑了从周围句子中获取的上下文信息和从语言资源中获取的外部信息。成语性检测任务的性能表明数据集质量对于含有上下文信息的模型更为重要,但对于不包含上下文策略的模型,数量也起到一定作用。