- 通过可解释的方言分类器提取方言的词汇特征
通过使用可解释的方言分类器,无论是否有人类专家,我们提供了一种提取方言区别词汇特征的新方法,并在普通话、意大利语和低萨克森语上进行实验,实验证明我们的方法成功地识别了导致方言变异的关键语言特定词汇特征。
- 反讽和刻板形象的画像:探索情感、主题和词汇特征
通过词汇特征和 TF-IDF,在 Twitter 用户中检测到具有讽刺意味的信息,并通过特征选择和模型构建达到 F1 得分 0.84 以上。
- 编码摘要化:将文档汇总为连续向量空间,用于法律案例检索
我们通过引入深度神经网络的短语评分框架,将文档进行编码并汇总为连续向量空间的方法来解决法律案件检索任务,同时探索了词汇特征和神经网络生成的潜在特征的结合带来的好处。实验证明,词汇特征和神经网络生成的潜在特征相互补充,提高了检索系统的性能。此 - ACL细看少样本跨语种迁移:Shot 数量的选择很关键
本研究针对少样本跨语言迁移问题进行了试验设计和成功案例分析,并提出了集成功效设计的实验方案。通过对六个不同自然语言处理任务的 40 组样本进行分析,阐明了字典特性在少样本迁移中的作用,并证明了简单的完整模型微调方法在少样本迁移中的有效性。同 - ACLDuluth 在 SemEval-2019 任务 6 中:识别和分类具有攻击性的推文的词汇方法
本研究介绍了 Duluth 系统在 SemEval-2019 Task 6 中的表现,主要采用传统机器学习的方法,通过手动标记的训练数据中的词汇特征构建分类器来识别和分类社交媒体中的冒犯性语言,其中最成功的分类方法是基于规则的黑名单方法并尝 - EMNLP词汇特征更易受攻击,句法特征具有更强的预测能力
本文研究语言特征的易受攻击性,分析了特征值变化和预测功效变化等两个层面,结果表明词汇特征比句法特征更容易受到攻击,然而句法特征的微小变化却比词汇特征更能影响后续的分类表现。三个数据集的验证证实了这些结果。
- 基于眼动的读者识别和文本理解评估的判别模型
研究读者通过阅读时眼动观察来推断其身份并估计文本理解水平的问题,通过使用词法特征的个体注视模式(扫描路径)的生成模型,得出基于眼动数据的 Fisher-SVM 的 Fisher 核方法,结果表明 Fisher-SVM 在识别读者身份上表现出 - COLING提高神经网络命名实体识别的鲁棒性词汇特征
本文介绍一种使用神经网络方法进行实体识别的系统,主要聚焦于研究如何在建模时引入词汇特征,并通过低维向量空间嵌入和高效训练得到最佳结果,最终在公开数据集上取得了较高的 F1 分数。
- ACL作者承诺和社会权力:自动信仰标记推断互动的社会背景
使用 NLP 的 extra-propositional semantics extraction 技术,研究作者表达的承诺对于组织层级结构的反映,发现下属使用非承诺性语言的情况显著大于上级,且下属更倾向于归因于其他代理人。同时推断出,使用 - EMNLPSeernet 在 EmoInt-2017 中的推文情感强度估计器
本文介绍了使用广义回归器系统在推文中估计情绪强度的实验。系统结合了词法、句法和预训练词向量特征,对通用回归器进行训练,并最终结合最佳表现模型创建一个集成系统。所提出的系统在 WASSA-2017 共享任务情感强度排行榜中名列第三。
- ACL指代消解中的词汇特征:谨慎使用
本文研究了在先进的共指消解器中使用大量词汇特征的一个缺点,即如果核心语义分辨器主要依靠词汇特征,它们几乎无法推广到未见过的领域。此外,我们还展示了当前的共指消解评估存在明显缺陷,因为只针对一个特定数据集中的特定拆分进行评估,在训练、开发和测 - 利用特征研究从推特数据中归类抑郁症状以促进人群健康
通过特征消融实验和特征消除方法确定最佳分类性能,我们发现,词汇特征对于识别抑郁症状至关重要,简单的词汇特征和减少的特征集可以产生与更大的特征集相媲美的结果。
- ACL文学语言的数据导向模型
利用句法和词汇特征,以及人类评级来预测文学性,本模型是第一个通过多种特征区分高低文学小说,并可解释 76.0%文学评级的变异性。
- ACL通过低秩张量嵌入词汇特征
提出一种基于张量近似的新型 NLP 模型,将词汇特征分为词汇、上下文信息和标签,并在张量中捕获这些特征之间的连接信息,通过低秩张量逼近来减少参数空间并提高预测速度,模型在关系提取、PP 附加和介词消歧等任务上取得了最先进的结果。
- 基于词语对齐的 FAQ 问答系统
本文提出了一种新的基于单词对齐的方法来解决 FAQ 问题回答任务,并且实验证明,问题相似度模型比基线系统更有效,稀疏特征可使 top-1 准确度提高 5%,而学习排名算法显着优于传统方法。此外,本文的方法在答案选择任务上表现优异。
- 复杂问答:无监督学习方法和实验
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。