Jan, 2016

ICON 2015 上面向混合语印度社交媒体文本的词性标注

TL;DR本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验,并开发了一种基于三元隐马尔可夫模型的工具,该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。 在受控模式下,我们的系统平均整体准确度(在所有三种语言对上取平均值)为 75.60%,这非常接近排名高于我们系统的其他两个系统(IIITH 为 76.79%,AMRITA_CEN 为 75.79%)。 在不受约束的模式下,我们的系统获得了平均整体准确度为 70.65%,这也接近获得最高平均整体准确度的系统(AMRITA_CEN 为 72.85%)。