技术语言处理中的停用词

Jun, 2020

Stopwords in Technical Language Processing

Serhad Sarica, Jianxi Luo

TL;DR本文探讨了在工程应用中，自然语言处理技术在信息检索，索引和主题建模中的应用。作者在此之上介绍了如何挑选出技术语言处理应用中的无意义单词，并编制出一个可供使用的停用词列表。

Abstract

There are increasingly applications of natural language processing techniques for information retrieval, indexing and topic modelling in the engineering contexts. A standard component of such tasks is the removal

natural language processing information retrieval stopwords engineering fields technical language processing

发现论文，激发创造

全球语言技术表现中的系统性不平等

本论文介绍了一种估算全球语言技术的实用性的框架，并量化了 NLP 研究现状中存在的差异性，探讨了其相关的社会和学术因素，并为基于证据的政策制定提出了定制的建议，旨在促进更全球和公平的语言技术。

Oct, 2021

电信规格的技术语言处理

大型语言模型（LLMs）在不同领域的应用越来越广泛。然而，目前即使是最先进的 LLMs，如 GPT-4，在没有大量预处理的情况下，从真实世界的技术文档中提取信息仍然存在挑战。本文讨论了处理电信行业专家生成的技术信息时，现有自然语言处理（NLP）工具的局限性，并将技术语言处理（TLP）的概念拓展到电信领域。此外，我们探讨了领域特定 LLMs 在规范工程师工作中的影响，并强调采用领域特定 LLMs 可以加快学习不同电信领域的专家的潜在好处。

Jun, 2024

通过自然语言处理进行计算机工作市场分析

利用自然语言处理技术从职位描述中提取相关信息，包括解决训练数据的稀缺性、标注指南的缺乏以及从职位广告中提取有效信息的不足等挑战，最终通过引入抽取方法和多个数据集相辅相成的检索增强模型来提高整体性能，并将提取到的信息置于特定分类体系中。

Apr, 2024

编程自然语言处理调查

本文综述了自然语言处理在编程方面的研究，并从推理模型到最新竞争级模型全面调查了现有的相关工作，具有技术类别的完整性，方便查找和比较未来的工作。

Dec, 2022

低文档化语言 NLP 中语言专业知识的意义

本研究指出，利用语言学家的专业知识，IGT 数据可以成功应用于 NLP 项目中，但需要定义任务、语言专业知识和任务评估等步骤，本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。

Mar, 2022

自然语言处理的高效方法：一项调查

本文介绍了在资源有限的情况下，如何在自然语言处理中提高处理效率的方法和研究方向。

Aug, 2022

重视过程，以更好地为原住民社区提供语言技术服务

通过采访 17 位在澳大利亚从事或支持土著和 / 或托雷斯海峡岛民社区语言技术项目的研究人员，本文探讨了在为土著语言构建 NLP 技术时的伦理考虑，并建议 NLP 研究人员应关注与土著社区的互动过程，而不仅仅关注去语境的产物。

Feb, 2024

结构推理要求工程中的自然语言 —— 一个综合性的回顾

评估自然语言处理（NLP）工具在需求工程中的应用，发现目前没有开源的方法可以直接从文本中提取信息结构，认为需要不同的方法，可以通过管理算法、知识库和文本语料库来实现。

Feb, 2022

语言 (技术) 即权力：自然语言处理中 “偏见” 的关键调查

对 146 篇分析自然语言处理系统中 “偏见” 的论文进行调查，发现大部分这些论文的动机模糊、不一致且缺少规范性推理，同时发现这些论文提出的量化技术与动机不符，并未接触自然语言以外的相关文献。基于这些发现，为分析自然语言处理系统中的 “偏见” 工作提出了三个建议。这些建议包括更加认识语言与社会等级之间的关系，鼓励研究人员和实践者表达对 “偏见” 的概念化，即什么样的系统行为对谁有害，以及为什么，同时也要关注受自然语言处理系统影响的社区成员的生活经验，质疑和重新构想技术人员与这样的社区之间的权力关系。

May, 2020

语言技术从业者作为语言管理者：在 ASR 中仲裁数据偏见和预测偏见

该研究论文采用语言政策视角，分析了当前工业训练和测试自动语音识别系统的做法如何导致数据偏见和算法偏见，进而导致系统误差差异，并提出将语言资源重新构建为（公共）基础设施的建议。

Feb, 2022