- 数字人文的混合智能
研究论文通过探索数字人文学作为一门学科与混合智能作为一种研究范式之间的协同关系,提出了五个数字人文学的需求,即成功的人工智能系统需要与学者合作、支持数据批评、支持工具批评、意识到并满足不同的视角以及支持疏远和密切阅读。通过将混合智能的 CA - 应用数学中工作流程和模型的 FAIR 文档化方向
Mathematical models in Modeling-Simulation-Optimization workflows are addressed by MaRDI and MathModDB, as exemplified b - COLING引导的远程监督多语言关系抽取数据:适应新语言
应用引导远程监督方法创建了一个包含超过 8 万个实例和 9 种关系类型的德语生物关系抽取数据集,同时还创建了一个手动注释的用于评估模型的数据集,并在自动创建的数据集上训练了几种先进机器学习模型和进行多语言和跨语言实验。
- CHisIEC: 古代中国历史信息抽取语料库
利用中文历史信息抽取语料库 (CHisIEC) 推进古代历史和文化研究,实现对命名实体识别和关系提取任务的开发和评估,涵盖 13 个朝代超过 1830 年的历史时间线的数据,包括四种实体类型和十二种关系类型。
- 地中海 - 阿尔卑斯弧线区域古代壁画的深度图像先验修复
本文介绍了一种基于 Deep Image Prior 算法的图像修复方法,该方法对于数字人文领域中古老壁画的修复效果优于基于变分 / PDEs 和基于块的方法。作者通过将修复数据引入到一个未经过训练的卷积神经网络中,利用可靠信息匹配来完成修 - Wikibio:一个用于分析传记事件交叉的语义资源
本文介绍了一个新的全新语料库并建立模型,能够对传记文本进行事件检测,研究偏见和歧视问题,验证其在数字人文中的应用。
- 寻迹卷轴:透过绘画溯源窥探历史
通过使用手卷绘画作品,我们提出了一种名为 ScrollTimes 的系统,它结合了图像处理技术和语言模型,可用于追踪历史背景并揭示手卷绘画作品的历史性价值。
- Curatr:一个历史文学文本语义分析和策展平台
文献数字化收集的规模和多样性带来了挑战,基于机器学习支持的语义搜索的在线平台 Curatr 提供了一个文本挖掘流程,将神经单词嵌入与领域专家知识相结合,使研究人员能够从大型 18 和 19 世纪数字化文本语料库中筛选出相关的子语料库。
- 提尔索・德・莫利纳作品中的自动作者归属问题
本研究旨在通过工具和技术的应用,对西班牙剧作家 Tirso de Molina 的五部喜剧进行自动作者识别研究。通过量化和统计方法,使用 Stylo 和四种距离度量,得出结论否认了所有 Tirso 的归属,除了 La mujer por f - ACL具有结构预测的领域特定词向量
本文提出了一种称为 W2VPred 的方法,可以同时提供语料库的通用单词表示、每个子语料库的特定表示、子语料库结构和嵌入对齐,并在 New York Times 文章和两个英文维基百科数据集上进行了实证评估。该方法在一般类比测试、特定于领域 - EMNLP在《十日谈》中建模讲故事者的个性
探索如何使用数字人文工具处理任务,特别是针对使用古代意大利语这种不再使用的语言进行文本分析。我们重点研究问题是:文本中的不同故事讲述者是否呈现出不同的个性?通过使用监督分类方法基于讲述的故事预测讲述者,通过主题建模提取故事讲述者的 “档案” - 计算文学研究中情感分析与情绪分析综述
该文综述了情感分析在文学中的应用,包括追踪情节发展的变化、网络分析,以及理解文本的情感等。
- COLINGJeSemE:一个用于探索词义和情感演变的网站
介绍了 JeSemE 这个工具,在数字人文学者中替代手动编制的纸质字典,通过两个信息流:分布语义学和情感模型,来视觉化探索历时语料库中的语义和情感信息。
- COLINGShamela:一个大规模历史阿拉伯语语料库
本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。
- EMNLP文化转变还是语言漂移?比较两种计算语义变化的方法
本文介绍了两种不同的分布式度量方法如何用于检测两种不同类型的语义变化,第一种方法分析词汇分布语义的全局转变,对语言漂移等规则过程的变化敏感,第二种方法则更敏感于文化转变,两种方法的比较可以帮助研究人员确定变化的性质是更具文化性还是更具语言学