面向系统的单语NLP调查:希腊NLP的GenA
对语言类型学在自然语言处理中的应用进行了调研,发现目前的语言类型数据库在系统性能提升方面存在局限性,现提出将语言的类型类别与现代自然语言处理中的机器学习算法相融合的新方法。
Jul, 2018
本论文介绍了一种估算全球语言技术的实用性的框架,并量化了NLP研究现状中存在的差异性,探讨了其相关的社会和学术因素,并为基于证据的政策制定提出了定制的建议,旨在促进更全球和公平的语言技术。
Oct, 2021
该研究提出了一个系统化的框架,旨在更好地服务于使用自然语言处理系统的用户。该框架考虑了语言和文化之间的区别,以及跨文化和多元文化对NLP的影响,并调研了现有的和潜在的策略。
Mar, 2022
介绍了意大利语言的语言背景,探讨了 NLP 技术在意大利语言多样性方面面临的挑战,并提出了重视语言使用者的 NLP 技术发展的建议。最后,建议建立本地社区,共同开发和保护意大利的语言和方言。
Sep, 2022
该论文通过对NLP领域不同语言间存在的差异进行综合分析,基于现有的说话人口和活力等方面的语言分类,研究数据资源、NLP/CL研究、多语言网络平台和预训练多语言模型的分布情况,发现许多语言并未被覆盖,同时明显存在差异,对此提出了一些原因和建议。
Oct, 2022
本论文旨在为希腊自然语言处理(Greek NLP)领域开发一个基于语言学动机和技术相关的评估套件,通过引入四个专家验证的评估任务来实现这一目标,这些任务特别针对自然语言推理、词义消歧(通过示例比较或意义选择)和隐喻检测。同时,我们贡献了两个创新,既是我们推理数据集是首个标注所有可能的推理标签的数据集,也是通过使用ChatGPT作为语言中立的解析器以成本效率高的方式获取到面向资源不足语言的数据集。通过对每个任务进行实验,使用现有的最先进技术,我们确认了任务的挑战性,并强调希腊NLP生态系统需要加速进展以与当代主流研究保持同步的需求。
Sep, 2023
本研究系统地调查了涉及“类型多样性”的自然语言处理研究,发现并无固定的定义或标准。我们引入了几种度量标准来近似衡量语言选择的多样性,发现结果在各篇论文中差异很大。此外,我们证明了偏斜的语言选择可能导致对多语言性能的高估。我们建议未来的研究应当在“类型多样性”方面提供清晰的操作定义,以从经验证据上证明语言样本的多样性。
Feb, 2024
提出了一种基于语言类型学的语言抽样框架,用于选择高度类型多样的语言。通过与一系列度量方法的比较,发现我们的系统方法在检索多样性语言选择方面比以前的方法在自然语言处理中表现更为一致,同时为多语言模型评估提供证据,强调在自然语言处理中多样性语言抽样的重要性。
Jul, 2024
本研究针对希腊语在自然语言处理领域的方法、工具和资源相对匮乏的问题,系统整理了过去三十年在希腊语自动处理方面的研究成果。文章涵盖现代希腊语、古希腊语及各类希腊方言,为希望在希腊语进行自然语言处理、信息检索和知识管理的研究者和学生提供了有价值的参考。
Aug, 2024