Jul, 2024

ELCC:紧急语言语料库收集

TL;DR我们引入了Emergent Language Corpus Collection(ELCC):这是一系列从文献中的开放源代码实现的自发语言系统收集的语料库。该语料库包括各种信号游戏环境以及更复杂的任务,如社交推理游戏和体现导航。每个语料库都使用元数据进行注释,描述源系统的特性以及语料库的一系列分析(例如大小,熵,平均消息长度)。目前,研究自发语言需要直接运行不同的系统,这会减少对这种语言进行实际分析的时间,限制了研究的语言多样性,并对没有深度学习背景的研究人员构成了进入障碍。因此,具有大量良好文档化的自发语言语料库的可用性将使得研究能够以自发语言本身的特性为重点,而不是实验装置。