成语语料库构建的众包游戏化

Feb, 2021

Gamified Crowdsourcing for Idiom Corpora Construction

Gülşen Eryiğit, Ali Şentaş, Johanna Monti

TL;DR本文介绍了一种基于游戏化众包方法的语言学习材料收集方法，可以有效地收集各种表达习惯用语的例句，这一方法在语言独立性、数据收集的效率以及成果的可行性等方面都得到了验证。

Abstract

Learning idiomatic expressions is seen as one of the most challenging stages in second language learning because of their unpredictable meaning. A similar situation holds for their identification within

idiomatic expressions language learning crowdsourcing gamification natural language processing

发现论文，激发创造

会话系统中成语的向量表征

本文研究表明，由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复，通过利用潜在习惯表达（PIE）- 英语习语语料库，我们实现了 98％F1 宏分数的准确率和更好的会话回复效果，为公众贡献了模型检查点 / 演示和代码。

May, 2022

互补强制众包的异常失败

本文介绍使用众包技术对补全强制现象进行注释的方法，提出了显式补全和自然语言推断两种任务，但是在众包过程中得分较低，通过分析本研究的建模方案和与以前研究的不同之处，我们得出结论，该现象需要量身定制的解决方案，不仅需要专业算法，还需要特定的数据收集方法。

Oct, 2020

利用极其嘈杂的众包标注鉴别中文意见表达

本研究探讨了如何使用极其嘈杂的众包注释构建一个低成本的数据集，并通过注释器适配器模型和相关混合策略，提高了众包建模的准确性，结果表明众包在观点表达识别方面有很高的应用前景。

Apr, 2022

如何制定有效的群众外包协议以解决困难的自然语言理解（NLU）数据收集任务？

本文以多项选择问题回答为测试基础，运用随机实验、数据收集协议及专家评估对比效果，发现训练众包工作者并采用迭代数据收集、传递回馈、基于专家判断进行筛选更为有效，但将普通众包判断及回馈替换为专家判断及回馈则效果不佳，最终观察到具有专家评估的迭代协议数据等级高于基线协议数据，并且人 - 模型差距大约是基准协议数据的两倍。

Jun, 2021

众包改写收集中任务设计权衡的理解

本研究是对众包方法进行语义重述数据采集的系统研究，旨在探讨任务设计中准确性和多样性之间的平衡关系，并提出未来语义重述集采集的指导意见。

Apr, 2017

由大胆解决问题到破解难题：成语文本生成

本篇文章研究了一种新的文本生成应用 —— 成语句子生成，通过使用神经模型和心理语言学理论，该文章提出一种有效转化直接字面短语到相应成语短语的方法，该方法在新建数据集上表现突出，超过其他文本生成竞争基准模型。

Apr, 2021

翻译意义而非单纯的词语：IdiomKB 在通过语言模型优化成语翻译中的作用

使用大型语言模型开发的多语言习语知识库（IdiomKB）能够提高机器翻译模型的性能，通过检索习语的比喻含义，使较小的模型在翻译过程中得到更全面的理解。

Aug, 2023

无标准数据情况下的众包研究 -- 案例分析

本文研究了在线辅导平台上对话的困扰个体的情绪估计的主观评估任务，探讨了聚合评估者选择的策略，展示了一个简单的投票共识与优化聚合方法在这个任务中同样有效，并设计了一种机器学习算法来执行相同的任务。有趣的是，我们观察到了一个没有明确建模评估者主观性的机器学习算法，在评估最主要的情绪时与人类评估一样可靠。

Jun, 2019

自然语言处理公民科学项目中的经验教训

研究发现，民间科学可以用于自然语言处理领域的数据标注，但需要考虑可扩展性，参与度和法律伦理等问题，可以提供指南和数据以支持未来的研究。

Apr, 2023

应用众包技术丰富高等教育音乐知识库

本文描述了在计算机科学高等教育课程中采用众包技术作为作业的方法和经验教训。通过音乐的相关元数据，采用一种支持文化遗产领域众包的平台并使用语义网技术分析了众包结果。结果为机器学习模型提供了一个公开可用的标注数据集，并且在线调查的反馈得出了将众包技术纳入计算机科学课程的好处和挑战。

Jun, 2023