- 上下文网络和无监督句子排序
首次使用上下文网络表示文档,并结合基于无监督算法的文本分析,综合考虑主题和句子评分来对句子进行排序;使用 SummBank 数据集,本文提出的 CNATAR 算法在 ROUGE 和 BLEU 指标下表现优异,超越了人工评分和现有的有监督算法 - ICML基于集成分类器的自动单标签专利分类
本文使用词向量和深度学习技术研究专利分类的任务,并尝试使用不同的特征表示和基于专利文件不同部分的集成分类器。结果表明,与目前最先进的独立解决方案相比,分类器的集成架构显著优于独立解决方案。
- 测量非概率性不确定性:已知和未知未知因素的认知、逻辑和计算评估
通过结构化的认知图谱对文字信息进行分析,提出了一种衡量非概率不确定性的方法,该方法还可以通过自动化文本分析大大增强这些技术所提供的可能性。
- 什么是真正重要的?使用语言线索分析 #BlackLivesMatter 运动及其反对抗议活动:2013 至 2020 年
本研究利用社交媒体作为权威工具对 3 种数字活动进行研究,对 36,984,559 个推文进行多级文本分析,探讨用户行为和语言使用的影响,研究结果显示反对抗议者过度使用涉及种族或偏见的主题标签,而 Black Lives Matter 活动 - KDDMondegreen:一种针对语音搜索查询的语音识别错误后处理解决方案
本文介绍了一种名为 Mondegreen 的方法,它可以在没有声音信号的情况下,通过对用户的语音查询在文本空间中进行更正,以解决自动语音识别引入的误差导致的不相关搜索结果问题,并且已经在 Google 等公司的搜索系统中得到了显著的改善。
- ACLDOCENT:从大型文档集合中学习自监督实体表示
本文探讨了从大量相关文本中学习丰富的无监督实体表示。采用我们提出的训练策略,在多项与实体相关的任务中实现了良好的表现,如排序检索、知识库补全、问题回答等,并且无需人类监督。
- 一种使用正则化马氏距离的差分隐私文本扰动方法
本文提出了一种用于文本扰动的新机制,它基于 Mahalanobis 度量的正则化变体,旨在平衡隐私和效用之间的权衡,以提高文本分析的隐私性。
- COLING自动编码变分贝叶斯用于推断主题和可视化
本文介绍一种基于自动编码变分贝叶斯的推理方法,快速实现了主题和可视化的联合推断,以解决传统文本分析方法存在的降维和可视化困难,同时在大数据量情况下显著提高了效率和效果。
- COVID-SEE: 用于 COVID-19 相关研究的科学证据探索器
COVID-SEE 是一个基于信息探索概念的医学文献发现系统,通过多种不同的文本分析和自然语言处理方法来组织信息,并通过提供视觉概述增强搜索来帮助医学专业人员和研究人员探索文献证据,并提高相关信息的可发现性。
- ACL文本与因果推断:使用文本消除因果估计中的混淆因素的综述
本文回顾了计算社会科学中利用文本分析解决因果推论中混淆变量引起偏差的方法,并提出数据处理及评估决策的指南。尽管在利用文本分析进行混淆因素调整方面已取得了进展,但仍存在很多未解决的问题。
- ICML卷积泊松伽马信念网络
该论文提出了一种基于卷积泊松因子分析(CPFA)和卷积泊松伽马置信度网络(CPGBN)的文本分析方法,用于高效地提取这些文本的潜在表示,以捕捉单词顺序信息。
- Hateminers:检测针对女性的仇恨言论
本研究提出了机器学习模型来检测社交媒体上的仇恨言论,其中包括基于句子嵌入、TF-IDF 向量和 BOW 向量的特征提取方法,研究团队在 2018 年的 EVALITA 的 AMI 共享任务中取得优异成绩,并公开了他们的获奖模型。
- EMNLP关于字符语言模型在多语言命名实体识别中的性能
本研究通过分析不同语言下人名和非人名标记的差异,提出使用基于文字级别语言模型(CLMs)的特征来识别命名实体标记,并表明针对多语种文本,CLMs 能够在接近全面 NER 系统的性能水平下实现不同语言间的实体标记识别。同时通过添加简单的 CL - 基于语境的递归神经网络
本文介绍了一种名为 Grounded Recurrent Neural Network (GRNN) 的适用于多标签预测的循环神经网络结构,其具有将标签明确绑定到递归隐状态的特定维度的特点,这个过程叫做 “接地”。 该方法特别适用于从文本中 - 探测推特上的攻击和欺负行为: Mean Birds
该论文通过对推特用户的文本、用户和网络属性的提取和分析,提出了一种有效的、可扩展的方法来检测网络欺凌和攻击行为,并通过机器学习分类算法,在 1.6M 条推文上取得了 90% 以上的准确率。
- 文本数据的异常值检测:扩展版
本文提出一种基于矩阵分解的文本异常检测方法 TONMF,通过低秩逼近和块协调下降优化技术,实现对非负矩阵数据中异常点与自然变化的有效区分。
- 短文本个性特质识别的语言无关和组合模型
通过深度学习方法和文本的原子特征 —— 字符,建立层次化的句向量表示,应用于推文语料库中,有效识别出作者人格特质,与先前基于浅层学习模型的工作相比,在五个特质和三种语言(英语、西班牙语和意大利语)中表现最优,结果鼓舞人心,揭示了检测复杂人类 - 基于对抗自编码器的无平行语料跨语言分布式表示学习
研究使用对抗自编码器从单语言分布中学习向量表示法,以实现不同自然语言间的向量兼容性,初步结果表明该技术可用于跨语言句子表达。
- 基于网络模式识别的作者归属
利用复杂网络的概念和方法,研究关键词识别、自动提取摘要和作者归属等自然语言处理任务中的模式识别技术,提出了基于功能词重复模式的作者归属任务,运用机器学习方法对其进行验证,结果表明模式能够区分不同作者的写作风格,并推荐将其应用于其他相关的语言 - 故事的情感轨迹由六种基本形状主导
使用大数据分析的方法,利用计算能力,自然语言处理和数字化文本处理,对文化演变进行研究,对一部分 Project Gutenberg 文本集中的 1327 个故事进行情感弧分类,发现六种情感弧,是构成复杂情感轨迹的基本构建模块之一,并可以通过