技术语言处理中的停用词
本论文介绍了一种估算全球语言技术的实用性的框架,并量化了 NLP 研究现状中存在的差异性,探讨了其相关的社会和学术因素,并为基于证据的政策制定提出了定制的建议,旨在促进更全球和公平的语言技术。
Oct, 2021
大型语言模型(LLMs)在不同领域的应用越来越广泛。然而,目前即使是最先进的 LLMs,如 GPT-4,在没有大量预处理的情况下,从真实世界的技术文档中提取信息仍然存在挑战。本文讨论了处理电信行业专家生成的技术信息时,现有自然语言处理(NLP)工具的局限性,并将技术语言处理(TLP)的概念拓展到电信领域。此外,我们探讨了领域特定 LLMs 在规范工程师工作中的影响,并强调采用领域特定 LLMs 可以加快学习不同电信领域的专家的潜在好处。
Jun, 2024
利用自然语言处理技术从职位描述中提取相关信息,包括解决训练数据的稀缺性、标注指南的缺乏以及从职位广告中提取有效信息的不足等挑战,最终通过引入抽取方法和多个数据集相辅相成的检索增强模型来提高整体性能,并将提取到的信息置于特定分类体系中。
Apr, 2024
本研究指出,利用语言学家的专业知识,IGT 数据可以成功应用于 NLP 项目中,但需要定义任务、语言专业知识和任务评估等步骤,本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。
Mar, 2022
通过采访 17 位在澳大利亚从事或支持土著和 / 或托雷斯海峡岛民社区语言技术项目的研究人员,本文探讨了在为土著语言构建 NLP 技术时的伦理考虑,并建议 NLP 研究人员应关注与土著社区的互动过程,而不仅仅关注去语境的产物。
Feb, 2024
评估自然语言处理(NLP)工具在需求工程中的应用,发现目前没有开源的方法可以直接从文本中提取信息结构,认为需要不同的方法,可以通过管理算法、知识库和文本语料库来实现。
Feb, 2022
对 146 篇分析自然语言处理系统中 “偏见” 的论文进行调查,发现大部分这些论文的动机模糊、不一致且缺少规范性推理,同时发现这些论文提出的量化技术与动机不符,并未接触自然语言以外的相关文献。基于这些发现,为分析自然语言处理系统中的 “偏见” 工作提出了三个建议。这些建议包括更加认识语言与社会等级之间的关系,鼓励研究人员和实践者表达对 “偏见” 的概念化,即什么样的系统行为对谁有害,以及为什么,同时也要关注受自然语言处理系统影响的社区成员的生活经验,质疑和重新构想技术人员与这样的社区之间的权力关系。
May, 2020
该研究论文采用语言政策视角,分析了当前工业训练和测试自动语音识别系统的做法如何导致数据偏见和算法偏见,进而导致系统误差差异,并提出将语言资源重新构建为(公共)基础设施的建议。
Feb, 2022