- 基于文本的情感自动分类:不同数据集的比较探索
本研究旨在探索情感分类中的新数据集和深度学习模型在数据特征不同时的表现,结果发现 RoBERTa 模型在所有情况下表现最佳,并测试了这些模型对实际社交媒体帖子的适用性。
- 使用多语言预训练变压器量化文本情感的价值和唤起程度
本研究利用预训练转换器对多语言和多领域的输入文本进行情感分析,使用基于趋势 - 唤醒维度的情感分析方法,比传统方法更细致地区分不同的情感,并发现模型大小对预测质量有显著影响,可自信地预测不同语言的趋势性和唤醒性。
- 利用自然语言学习个性特征的神经网络
本研究使用神经网络和分布式算法来提取文本的隐藏性信息,研究人员从心理学文献定义的五大人格特征(Big Five)的形容词词典开始,并构造了包含文本语义信息的嵌入,证明了个人写作风格与其人格特征密切相关。
- 使用 N 个字母来建模梵语及其相关文本
使用 n-aksaras 将梵文文本进行分词,使得在文本分析中无需解决 sandhi 等问题,测试结果显示可以跨越十个世纪和九种语言进行文本重用模式的分析,并对佛教评论实践的一些初步观察进行了讨论。
- CRYPTEXT:人类书写文本扰动数据库和交互式工具包
本文介绍了一种名为 CRYPTEXT 的交互式系统,它提供了一个包含工具和数据库的数据密集型应用程序,用于提取和归一人类书写文本的文本语言扰动,并提供了一个交互式界面,用于在线监视和分析文本扰动。
- 使用数据科学和机器学习方法对莎士比亚剧作进行持续分析
本研究通过应用机器学习分析手段,对莎士比亚的作品进行文体统计学预测,结果表明莎翁的写作风格随时间发生了显著变化,其中包括句子长度、形容词和副词的频率,以及文本中表达的情感。此外,还发现有些作品的文体与它们的实际创作时间不太相似。
- AAAI在 Qualtrics 压缩跨语言多任务模型
本文利用跨语言多任务建模技术以及模型压缩和蒸馏,为经验管理的多种分类任务提供了有效的文本分析应用程序。实验表明,在 XLM-R 和 mBert 架构中,多任务建模提高了部分经验管理任务的性能,MiniLM 实现了最佳的压缩 / 性能平衡,实 - 大型国民辩论中 “黄马甲” 发言及受众?从 “国民大辩论” 和 “真正辩论” 平台上,结合人工智能和文本计量方法进行话语分析
提出分析两个 civic tech 平台的语句的算法,其中包括政府平台,Grand Débat National,和由黄马甲团体提出的算法响应,Vrai Débat。研究家采用了两种不同方法分析这些平台的文本数据,并尝试从政治社会学和数据科 - EMNLP字典辅助的监督对比学习
本文介绍了一种使用字典辅助的有监督对比学习模型,使研究人员能够在微调预训练语言模型时利用专门的字典。这种方法可以在少量样本情况下提高分类性能指标和社会科学应用。
- 基于上下文和情感嵌入特征的四要素情感认知框架 CEFER
本文提出了一种同时考虑语境和情感的框架 CEFER(Context and Emotion embedded Framework for Emotion Recognition),提高了对文本中隐含情感的识别准确率。
- YATO:基于深度学习的文本分析开源工具包
YATO 是一款基于深度学习的文本分析工具包,支持自由组合三种特征类型并具有灵活性和易用性,可促进 NLP 技术的跨学科应用与最先进模型的复现和改进。
- 通过力量和危险波动表征书籍中的叙述时间
通过计算基于文本长度的峰值波动,利用基于眼动数据的量化方法(ousiometrics)和经验模态分解(Empirical Mode Decomposition)技术,找到了故事结构中子故事的叙事时间尺度,该方法适用于不同长度的书籍的文本分析 - LEXpander: 将共同义词网络应用于自动词汇扩展
本文介绍一种基于 colexification 方法的词库扩展方法,名为 LEXpander,通过该方法生成的单词列表在各个测试中表现良好,可以近似于心理学和语言学专家生成的单词列表。
- 摩擦作家
该研究提出了一种基于动态摩擦的文本分析方法,其使用文本字母的分布频率计算摩擦系数,通过与 Flesch 阅读易度比较,论文展示了该方法的有效性,同时提供了分析程序的源代码。
- 轮询潜在观点:使用变换器语言模型的计算机社会语言学方法
使用 Transformer Language Models 等方法对 Yelp 评论进行语言行为学习,并利用 prompt-based queries 生成合成文本以分析特定观点,证明即使在缺乏特定关键词的情况下,这些模型也能准确产生具有 - 从社交媒体文本中检测抑郁症状
本文提出了一种基于文本单元、词类标记、可读性度量以及第一、第二或第三人称和单词数的方法来检测社交媒体文本中的抑郁迹象。我们的最佳模型获得了 0.439 的宏 F1 分数,排名 31 个团队中的第 25 名。我们进一步利用逻辑回归模型的可解释 - 放射学文本分析系统(RadText):架构和评价
RadText 是一个基于 Python 开发的开源放射学文本分析系统,采用 BioC 统一接口,支持多种处理方式和架构,输出符合 OMOP CDM 标准化结构,可用于多个数据源的观察研究,本文中我们使用 MIMIC-CXR 数据集进行了评 - ProtagonistTagger -- 用于跨语言和领域的人名实体链接的工具
该研究介绍了一种能够在英语小说和波兰语互联网新闻中实现人物命名实体识别和消岐的工具 --ProtagonistTagger,其准确率和召回率在 78% 到 88% 之间波动。
- 应用于法律领域的人工智能技术现状
该研究概述了人工智能在法律领域应用的起源和发展历程,并介绍了自然语言处理在法律文本分析中的最新进展及其现状。
- 基于关键词属性的主题分析增强
本文介绍了一种基于关键词属性的特异性评分方法,用于评估主题模型算法并选择最具信息的主题,结果表明这种方法可在信息损失更低的情况下压缩不同因素的最新主题建模结果。