- 语音与文本情感识别器
情感计算是一门研究领域,专注于开发能够理解、解释和响应人类情感的系统和技术。本研究主要针对公开可用的情感标签数据集稀缺和不平衡的问题,通过合并这些数据集以及采用各种语音数据增强技术构建了一个均衡的语料库,并在语音情感识别方面尝试了不同的架构 - EMNLP下雨涌现:媒体风暴与新闻生态建模
通过对于本地和全国在线新闻的合集进行研究,我们开发并应用了一种成对文章相似性模型,从而能够识别媒体风暴的故事群,并在近两年的时间内创建了一个全面的媒体风暴合集。利用这个合集,我们能够以更细粒度的方式研究媒体风暴,验证其演变和话题分布的假设, - 克莱尔法语对话数据集
Claire French Dialogue Dataset (CFDD) is a multilingual, open source corpus of roughly 160 million words from transcript - 波斯钢琴语料库:以达斯塔为考虑因素的基于乐器特征的数据收集
我们通过采用基于乐器的方法来解决数据稀缺问题,提供了一个与波斯式钢琴相关的完整语料库,其中包含有关波斯音乐调式(Dastgah)的相关标签和综合元数据,可在各种热门研究领域中使用。我们收集了来自 2022 年波斯式钢琴作品的特征,并提供给研 - ACL分解仇恨言论:一种研究社交媒体中仇恨言论的新注释框架
我们提出了一种新颖的标注方案,将仇恨言论分为五个独立的话语类别。通过构建包含对犹太人进行仇恨表达的超过 2.9M 条推特帖子的语料库,并对其中的 1,050 条推文进行注释,我们对注释的数据集进行了统计分析,并讨论了注释示例,最后提出了未来 - 寻找共同基础:口语对话中的注释和预测共同基础
我们介绍了一种新的标注和语料库来捕捉共同基础,然后从每个说话者的角度描述了一些从对话中提取命题并在共同基础中追踪其状态的初步实验。
- ChiSCor:荷兰儿童自由叙述的奇幻故事语料库,供计算语言学和认知科学使用
本研究详细介绍了 ChiSCor 的构建过程,并展示了其在三个简短的案例研究中的潜力:首先,展示了故事的句法复杂度在儿童年龄段之间相对稳定;其次,扩展了关于自由言论中 Zipf 分布的研究并展示了 ChiSCor 与社会环境反映了 Zipf - EMNLPK-HATERS:针对特定目标的韩文仇恨言论检测语料库
本研究介绍了 K-HATERS,这是一种用于韩文中仇恨言论检测的新语料库,其中含有大约 192K 个新闻评论,附有针对特定目标的冒犯程度评分。该语料库是韩文中最大的冒犯性语言语料库,是首个提供针对三级李克特量表的特定目标评分的语料库,能够检 - EMNLP用户生成内容中的是非问题解读
社交媒体上解释是非问题的答案是困难的,本文提出了一种新的包含来自 Twitter 的 4,442 个是非问题答案对的语料库,探讨了解释为是、否或未知的答案的语言特征,证明大型语言模型在解决这个问题上仍然存在问题。
- CCAE:源自中国的亚洲英语语料库
该论文介绍了 CCAE(Corpus of Chinese-based Asian English)语料库,其为研究亚洲英语提供了重要的资源,尤其是中式英语,并在 NLP 技术的支持下为世界英语研究奠定了基础。
- Colloquial Persian POS (CPPOS) Corpus:一份用于口语波斯语词性标注的新颖语料库
这篇论文介绍了一个面向口语波斯文的新语料库 CPPOS,通过使用该语料库进行训练,利用深度学习模型在波斯文的 POS 标注任务中取得比现有数据集和工具更好的性能,相较之前的数据集的改进达到了 14%。
- 通过不同的角度研究社交不当言论分类(SUD):“我们是否在同一页面?
研究网络文本中的社交不可接受辞谢(SUD)的特征与检测,提出了一个新颖的包含不同在线来源手动标注文本的语料库,并通过分析开放挑战和研究方向讨论可能不同注释方式对 SUD 学习的影响,以此来测试 SUD 分类器的泛化能力。同时,提供了一些数据 - I-WAS: GPT-2 进行明喻检测的数据增强方法
通过基于 GPT-2 语言模型的单词替换和句子完成的拟态数据增强方法,本研究提出了一种改进的方法 I-WAS,旨在改善拟态句子的质量,为真实世界的应用提供更多样化的拟态形式的语料库,并通过实验结果证明了该数据增强方法在拟态检测中的有效性。
- Parmesan 教育数学概念提取
我们开发了一个原型系统 Parmesan,用于在上下文中搜索和定义数学概念,以帮助不熟悉数学概念的研究人员,该系统依赖于自然语言处理组件,包括概念提取、关系提取、定义提取和实体链接技术,并提供了两个修订后的数学语料库。
- Vacaspati: 孟加拉文学的多样语料库
建立了包含超过 11 百万句子和 1.15 亿个词语的 Bangla 语料库 Vacaspati,并使用该语料库训练了 FastText 和 Electra 模型,这些模型在各种下游任务中表现良好,其中 Vac-BERT 的性能优于其他最先 - YouTube-ASL: 一个大规模、开放领域的美国手语 - 英语平行语料库
本论文通过 Youtube-ASL,一个大规模的开放领域美国手语(ASL)视频语料库的介绍及研究,证明了手语机器学习的瓶颈在于数据问题,并使用 How2Sign 进行了模型基线培训及评估,并获得了新的微调技术的艺术的最高状态和首次报道的零 - 大规模多语种情感数据集和多方面情感分类基准
该研究提供了一个由 79 个数据集组成的开放性跨语言语料库,可用于培训情感模型,同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。
- FEED PETs: 潜在委婉术语消歧的深入实验和扩展
本研究使用 Transformer 模型在英语委婉语消歧任务中,增加了新的任务:注释委婉语中的模糊性,并在三种不同的语言(如 Yoruba、西班牙语和中文)中建立了委婉语语料库,最终使用多语言 Transformer 模型进行了消歧试验。
- STT4SG-350: 一份面向瑞士所有德语方言地区的语音语料库
提供了一份瑞士德语语音的语料库,包含了来自各个方言区的 316 名发言者的 343 小时语音数据,并提供了这些发言者的方言、年龄和性别信息。该语料库适用于自动语音识别、文本到语音、方言识别和说话人识别等应用领域,并提供了训练集、验证集和测试 - 英文新闻文章句子级主观性检测语料库
该研究介绍了一个用于句子级别主体性检测的新语料库,其中包括英语政治事务的主观句子和客观句子,同时开发了新的标注指南和使用最新的多语言转换模型,使得该语料库能够用于英语和其他语言的主体性检测,并在其他语言丰富资源的情况下,提高了该任务的结果。