- 基于语法和句法的乌克兰语语料库分析工具
该研究提供了一个文本挖掘工具 StyloMetrix 的概述,该工具最初为波兰语开发,后来扩展为英语和乌克兰语。研究人员使用计算语言学家和文学研究人员手工制作的各种度量衡来构建统计评估句法和语法特征的思路是直接而熟悉的,但对于乌克兰语等低资 - PESTS: 波斯语 - 英语跨语言语义文本相似性语料库
本文为首次使用语言专家生成了一个波斯语和英语句子之间语义文本相似性语料库 (PESTS),并使用此数据集微调不同的基于 transformers 的模型,并且结果表明,使用 PESTS 数据集,XLM ROBERTa 模型的 Pearson - 从计算语言学的角度分析香港法律判例
本文探讨了使用统计分析、机器学习、深度学习、零样本学习等基于自然语言处理技术的方法,以有效地分析来自香港法院系统的法律判决,并提供了五种方法,从而能够从个人以及一组判决中提取关键见解和极性 sentiment,以便快速提取洞见并使香港判决的 - 基于 ChatGPT 的跨语言摘要
使用互动提示进行零翻译交叉语言生成任务,ChatGPT 可以在信息性和简洁性之间保持平衡,并显着提高其交叉语言生成任务性能。ChatGPT 在三个常见交叉语言生成数据集上的实验结果表明,其优于高级的 GPT 3.5 模型 (text-dav - 无法访问的神经语言模型可能会再次激活语言天赋主义
该研究论文阐述了当前的大语言模型非常强大,但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视,并主张研究者们应该尽可能开源其大型语言模型的代码,以便让经验主义和混合方法保持可获得性。
- 自然语言处理的分类工具
该论文提出了范畴论和计算语言学之间的翻译作为自然语言处理的基础,结合语法、语义和语用三个方面,以字符串图表达统一的句法结构,利用函子将图表达式计算为逻辑、张量、神经或量子计算的语义,通过组成游戏将生成的函子模型进行组合,从而解决语言处理任务 - 使用时序 GAN 建模低资源语言的形态结构
本文讨论了使用仅有的 100 个样本字符串训练出的一个 GAN 生成人工语言字符串的方法,并探究其在计算语言学中对于建模低资源语言的形态学变化的应用。
- 希腊议会议事录数据集用于计算语言学和政治分析
介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集,为解决无资源语言(如希腊)的大规模、历时政治话语数据而构建,可供计算语言学和政治分析使用,如研究词语用法随时间、历史事件和政党变化而变化,以及 - COLINGConFiguRe: 探索汉语语篇层级的修辞手法
该研究提出了 “隐喻单元” 的概念,旨在从话语层面上提取隐喻单元,并将其分类为正确的隐喻类型。在 “ConFiguRe” 上,进行了三项任务,即隐喻单元提取、隐喻类型分类和隐喻识别,并展示了现有模型在这三项任务上的不足,需要进一步研究。
- 基于语境的波兰语词形还原器
本文介绍了基于 Google T5 模型的波兰词形还原器,通过在不同的语境长度上运行训练,最终实现了最佳的波兰语词形还原效果。
- 使用 R 进行情感分析:半自动化质性数据评估的自然语言处理
该研究介绍了使用 R 进行情感分析的基本功能,并举例说明了其可能的用例,可以用于社交媒体平台和政治研究领域。
- RuArg-2022: 论点挖掘评估
本文是 Dialogue 会议对针对新冠疫情(疫苗、隔离和戴口罩)话题的社交媒体评论进行第一次俄语言论分析系统及其竞赛的组织者报告,由 NLI 变体的 BERT 体系结构获胜,希望为俄文文本的论证挖掘研究提供帮助。
- 计算语言学与自然语言处理
介绍计算语言学方法,重点关注其在翻译实践和研究中的应用,涵盖了语言数据的收集、存储、索引和分析的计算模型、方法和工具,并讨论了该领域的主要方法论问题和挑战。
- ACL分析社交媒体上的投诉强度
本文是计算语言学领域中第一次尝试,旨在从文本中确定投诉的强度,并创建了包含 3,103 条微博发布的汉语数据集。本文发现可以通过计算模型准确地估计投诉强度,并证明了其可以提高社交媒体上帖子受欢迎程度的估计。
- ACL社交媒体吹嘘自动识别与分类
本研究通过大规模计算语言学的方式,评估了新的公开数据集以及注释为 “吹嘘” 的推特类型,同时通过不同的基于变压器的模型注入语言信息来评估二进制吹嘘分类和多类别吹嘘类型预测,并通过对数据进行实证研究,得出了该模型可以预测自吹自擂并进行语言和错 - ACL具备编译器反馈的可编译神经代码生成
本文提出了一种名为 COMPCODER 的三阶段编译反馈机制,采用编译器反馈来生成可编译的代码,实验结果显示该方法的成功编译率从 44.18%提升至 89.18%。
- 置换不变矩阵统计与计算语言任务
本文介绍了由 Kartsaklis,Ramgoolam 和 Sadrzadeh 引入的语言矩阵理论(Linguistic Matrix Theory)计划,旨在研究基于置换不变多项式函数的矩阵统计学,从组合式分布语义(composition - 广泛覆盖、可解释的认知系统语言生成
本文描述了 OntoAgent 认知架构内开发的面向智能代理的自然语言生成(NLG)的最新进展,该方法在计算语言学的知识库、代理架构和方法上深受过去自然语言理解研究的启发,以实现长期面向广泛覆盖,同时支持近期应用。
- 关于 apadana 的 Karaka-Yogyata 捕捉策略
本文探讨了如何使用印度哲学的思想来开发一种语言技术工具,实现单词的‘Yogyatā’,从而进行词义消歧以提升口头认识,在此过程中使用了 'ontological tag-set' 标签集合等方法。
- ACL检测语料库中使用频率发生变化的词语的简单、可解释和稳定的方法
本文提出了一种不使用向量空间对齐,而是考虑每个单词的邻居的新方法,有效地解决了数字人文学和计算社会科学中的文本比较问题。