- 社交媒体上的社会运动构架:解析诊断、预测和动机策略
社交媒体在 2018-2019 年围绕枪支、移民和 LGBTQ 权利等三个问题的社会运动中,使活动人士能够直接与公众沟通,并为运动领袖、参与者、旁观者和反对者提供一个共同构建和竞争叙事的空间。我们创建了一个代码书、注释数据集和计算模型,以检 - 孟加拉文本的国际音标转写
该研究论文介绍了国际音标 (IPA) 及其在孟加拉语音韵学和语音学中的应用,提出了一个新的 IPA 标准框架,并介绍了一个包含深度学习基准测试的新数据集,以促进语言分析、NLP 资源创建和相关技术的开发。
- 测试 MediaPipe Holistic 对手语中非手标记的语言分析
深度学习、关键点追踪、面部特征、语言分析和手语是该篇研究的主要关键词,通过测试不同解决方案的性能,提出了训练额外校正模型来克服局限性的建议。
- 将语音信号转换为超声舌影像数据的音频 - 文本扩散模型
本文提出了一种音频文本扩散模型用于 UTI 数据生成任务,通过编码个人的固有声学特征和与舌头运动相关的 ASR 转录,最终生成了具有清晰舌轮廓的高质量 UTI 数据,对于语言分析和临床评估至关重要。
- 利用 HuBERT 发现一种犬类语言的语音和词汇
研究了犬叫声中的潜在交流模式,采用了自监督方法 HuBERT,能够准确分类音素标签,并识别表明犬叫声中存在基本词汇的声音模式。发现这些识别出的犬词汇在观察到的犬叫声序列中具有显著的声学一致性,并开发了一个基于网络的犬叫声标注系统。
- AAAI社会、法律、道德、同理心和文化规则:编制与推理(扩展版)
AI 系统的实施需要遵守 SLEEC 规则,该研究通过语言分析和逻辑编程框架的应用提供了一个可行的策略。
- AAAI仇恨无法消除仇恨:预测对仇恨言论回复后的对话不文明
预测回复仇恨言论后的不文明对话的任务及其相关衡量标准和语言分析研究的结果,揭示了最佳模型最常见的错误。
- 利用神经网络对社交媒体数据中的患者声音进行分类:不同数据源和治疗领域上 AI 模型的比较
通过语言分析,本研究测试了在线患者经验信息的多样性,并结合相似性训练了分类器,以准确识别社交媒体上的患者经验帖子,称之为患者声音分类。经过实验,心血管和神经类别的分类器在 Reddit 数据源上表现最佳,F1 分数分别达到 0.865 和 - ChatGPT 是一个可能的零射依赖分析器
ChatGPT 是一个潜在的零射语义依赖解析器,经过实验证明其具有依赖解析的能力,并且语言分析也展示了其在解析输出上的独特偏好。
- 利用大型语言模型和语言规则生成矛盾检测的原型
介绍了一种新颖的数据生成方法用于矛盾检测,结合了大型语言模型的生成能力和语言规则,旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。
- TextDescriptives: 一个 Python 包用于从文本中计算各种各样的度量
TextDescriptives 是一个基于 spaCy 的 Python 包,用于计算文本的多种度量标准,已被用于临床文本的语言稳定性分析、神经精神疾病预测特征的创建以及小学生语言目标的分析。
- EMNLP通用且独立:多语言探测框架用于全面模型解释和评估
本文提出并应用一种 GUI 辅助框架,使我们能够轻松地探寻普遍依赖数据中所有形态句法特征所出现的大量语言。我们发现,反映了过去几年自然语言处理的西方中心趋势,mBERT 模型中揭示的大多数规律对于西欧语言而言是典型的。因此,我们提出了一个工 - CGELBank:作为英语句法注释框架的 CGEL
通过 CGELBank 项目,我们将英语语法的剑桥文法形式化引入树库中,探讨了在语料库标注中出现的一些语言分析问题,并与 UD 和 PTB 树库进行了定量和定性比较,我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡, - 跨语言语料库相似度度量方法具有较强的鲁棒性
本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法,旨在量化各语言语料库之间的距离和单个语料库的同质性,结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性,并且可以应用于低资源语言和不同的语料库 - 奥里亚语通用依存树库
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行 - 抑郁症患者的快乐时刻探索:生活并非总是沮丧的
本文探索抑郁与社交媒体中快乐表现之间的关系,使用 PU learning 模型从帖子中提取快乐时刻,并运用 LIWC 等语言工具进行定量分析,发现相对于正常人,患有抑郁症的人更加重视与家人朋友有关的积极事件。
- ACL深入探索暗网语言
本研究介绍了一个名为 CoDA 的数据集,该数据集包含了一万个文档,旨在帮助进行基于文本的暗网研究。通过利用 CoDA 数据集,本研究对暗网进行了全面的语言分析,比较了暗网与表层网络之间的差异,并评估了不同方法的暗网文本分类性能。最后,本研 - 探究语音情感识别变形金刚在语言知识方面的应用
本文研究了使用 self-attention layer(transformers)预先训练的神经网络在情感识别中的表现,并发现这些模型成功利用语言信息来提高其 valence predictions,在测试他们时应包括对语言分析。
- ACL社交媒体吹嘘自动识别与分类
本研究通过大规模计算语言学的方式,评估了新的公开数据集以及注释为 “吹嘘” 的推特类型,同时通过不同的基于变压器的模型注入语言信息来评估二进制吹嘘分类和多类别吹嘘类型预测,并通过对数据进行实证研究,得出了该模型可以预测自吹自擂并进行语言和错 - ACL提升潜力:理解社交媒体背后的个人特征
通过对一组写下要改变的人的文本进行语言学分析,开展了计算研究,找出了区分那些坚持改变以及那些放弃改变的人的写作模式,该研究为理解成功改变的动机行为提供了新的见解。