- 改述类型间引发提示工程能力
这项研究通过对一系列不同的语言表达的变化进行系统和实证评估,发现语言模型在适应特定的语义转换类型(如形态、词汇)的提示时具有潜力,这为开发能够处理语言表达的变异性的更强大的语言模型做出了贡献。
- 自动发展新兴概念的词汇表:方法论探索
该论文介绍了基于新兴概念的词典的开发,聚焦于非技术创新。它引入了一种结合了人类专业知识、统计分析和机器学习技术的四步方法,建立了一个可以普遍适用于多个领域的模型。该方法证明了其稳健性和相关性,突出了其对各种环境的适应性和对词汇研究的贡献。所 - 结合定性和计算方法进行芬兰小说的文学分析
这篇文章通过使用情感分析的计算方法,研究了如何结合定性或更传统的文学研究方法,从芬兰文学经典中汲取知识。我们提出并发展了一种简单但强大的情感分析的计算方法,使用经过精心筛选的适应芬兰 20 世纪之交文学文本的情感词典与词嵌入相结合,来绘制芬 - COLING融合词汇和句法知识的无监督跨语言迁移
本文提出了一种名为 “Lexicon-Syntax 增强多语言 BERT” 的新框架,该框架结合了词汇和句法知识,并通过多种技术增强其学习能力,在零样本跨语言传递的任务中取得了优异的成绩。
- 从无监督的情感分析中创建表情符号词库
在线媒体产生了大量的非结构化数据,我们提出了一种新的方法来预测在线文本消息中表达的表情符号的情感,并构建了一个情感词典进行评估和比较。
- ChainNet: WordNet 中的结构化隐喻和转喻性
使用 ChainNet 这一词汇资源,该研究首次明确地识别了一个词的意义结构,并表明了 Open English Wordnet 中的名词意义是如何通过隐喻、转喻以及同音异义词进行联系的,从而创造了第一个基于隐喻与转喻的数据集。
- COLINGELLEN:高效命名实体识别的极轻度监督学习
在这项工作中,我们重新审视了半监督命名实体识别(NER)问题,重点是极度轻量级的监督,包括每类仅包含 10 个示例的词典。我们介绍了 ELLEN,这是一种简单、完全模块化的神经符号方法,将经过微调的语言模型与语言规则相结合。ELLEN 在使 - 研究 Incel 社群激进化的词汇表
一项基于定性内容分析的研究,针对 2016 年至 2023 年期间最活跃的一些极端网络群体,提供了一个术语表及其定义,用于自动化分析,以支持进一步研究该社群中的激进化、去激进化和脱离行为。
- 统一晶格图融合用于中文命名实体识别
通过将词库整合到字符级序列中,我们提出了一种统一的格点图融合(ULGF)方法,用于中文命名实体识别。ULGF 可以明确捕捉字符 - 词语空间中细粒度语义单元之间的各种语义和边界关系,通过将格点结构转换为统一的图形来实现。我们堆叠多个基于图形 - 双向长短期记忆网络生成颜色
利用双向长短期记忆网络与主动学习,开发了一种新型模型,旨在桥接我们对无数色调的视觉感知和准确表达与命名它们的能力。这项研究的主要目标是创造一个多功能工具,用于对以前未命名的颜色进行分类和命名,或者识别逃避传统颜色术语的中间色调。通过严谨的实 - 使用印度語 LGBTI + 詞彙檢視大型語言模型的評估
该论文提出了一种使用印度语 LGBTI + 词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法 - 索马里语的词典和基于规则的词汇形态还原方法
这篇论文首次开发了索马里语的文本词形归一化技术,为索马里语的自然语言处理任务构建了词典和基于规则的词形归一化系统,该系统在各种长度的文本上进行测试,取得了较高的准确率。
- 使用从语言样本中提取的词汇特征自动识别阿尔茨海默病
本文旨在探讨阿尔茨海默病对词汇不同方面的影响,以及证明这些词汇特征在机器学习分类器中的应用可以实现最先进的性能,通过 ADDreSS 挑战数据集和语言样本实验结果验证阿尔茨海默病对词汇处理的显著影响。
- 基于 CNN-BiLSTM 模型的英文手写识别:对 IAM 数据集进行全面评估
本文针对英文手写体识别问题,提出了一种基于 CNN-BiLSTM 系统的解决方案,并在公共 IAM 数据集上进行了广泛评估,包括模型大小、数据增强和词汇表的影响。其中采用 CTC 层的 CNN-BiLSTM 网络达到了 3.59% 的 CE - 儿童诗歌中的话语情感动态:随着年龄变化而产生的情感变化
本研究使用词汇表和基于机器学习的方法来量化儿童诗歌中表现出的情绪动态特征,结果表明随着年龄的增长,某些情绪(例如愤怒、恐惧、快乐、悲伤、唤醒和支配)的强度持续增加,价值持续下降,并且情绪变异性、上升速率(即情绪反应性)和恢复速率(即情绪调节 - ACL语言习得:儿童与语言模型是否遵循相似的学习阶段?
研究比较 GPT-2 模型和儿童语言习得的性质,发现两者的语言学习趋势相似但也存在差异。
- 方言嵌入空间的变异性和不稳定性
本文研究使用不同区域英语的嵌入空间的变化,并控制嵌入的不稳定性。实验得出结论:培训数据中的方言会对生成的嵌入空间产生显著的影响,并且这种方言差异在词汇的特定部分尤其容易出现变化。这表明方言之间存在语义上的差异,除了之前研究所述的词汇和句法差 - 将外语新词汇引入资源稀缺的语言初探
研究探讨在缺乏支持的语言中引入新词,以丰富词汇量,并提出从任何语言引入新词的建议,以丰富目标语言的词汇量,避免殖民主义对正式语言的影响。
- Ham2Pose:将手语符号动画化为姿势序列
提出一种将 HamNoSys 词汇符号转换为手语姿势动画的方法,利用 Transformer 编码器逐渐生成动作预测并使用距离测量方法评估质量,为手语和听障人士之间的翻译提供一种通用解决方案。
- Maknuune: 一个大型开放式巴勒斯坦阿拉伯语词典
介绍了 Maknuune,这是一个包含超过 36K 个词条的巨大的、对公众开放的巴勒斯坦阿拉伯方言词典,每个词条均包含符号化的阿拉伯语正字法、语音转录和英文词汇。