数据为先：自然语言项目的评估优先方法论

Jan, 2022

数据为先：自然语言项目的评估优先方法论

Data-to-Value: An Evaluation-First Methodology for Natural Language Projects

Jochen L. Leidner

TL;DR介绍了一种能应对大规模非结构化数据及 NLP 场景以及数据挖掘非技术层面问题的 D2V 方法论

Abstract

big data, i.e. collecting, storing and processing of data at scale, has recently been possible due to the arrival of clusters of commodity computers powered by application-level distributed parallel operating systems like HDFS/Hadoop/Spark, and such infrastructures have revolutionized

big data data mining nlp d2v methodology

发现论文，激发创造

大型语言模型作为文本挖掘的统一方法学

本文提出了一个新的文本挖掘方法：使用非常大的语言模型 (VLLM)，该方法具有文本摘要、信息提取、文本聚类等功能，取代了传统的文本挖掘方法并面临着新的挑战。

Dec, 2022

大数据与教育：在语言学习中使用大数据分析

教育行业中使用数据挖掘工具来处理大数据正在成为一种趋势。本文提出了关于教育数据挖掘和学习分析的基本概念、最受欢迎的工具、方法和技术，并探讨了大数据在语言学习方面的应用。

Jul, 2022

客户笔记数据的自然语言处理

本研究应用自然语言处理技术，对 B2B 数据集进行情感分析、主题建模和关键词提取，证明通过自动化方法能够准确地提取情感，并将笔记按相关性分类到不同主题。同时，本研究强调缺乏明确分离主题会导致主题缺乏与商业背景相关性。

May, 2023

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017

改进文本到 SQL 评估方法

为了评估系统在现实世界中未见数据上的泛化能力，本文首先比较了人工生成和自动生成的问题，提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次，我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力，因此提出了评估未来工作的补充数据集划分。最后，我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难，并启发未来研究的有效衡量方法。

Jun, 2018

大数据驱动语言技术时代的数据治理

本文提出了一种全球语言数据治理的方法，该方法旨在将数据管理围绕利益相关者、价值观和权利组织起来。我们的提议基于分布式治理的先前工作，并通过来自 60 个国家的研究员和实践者的国际研究合作进行了支撑。我们提出的框架是以语言数据为重点的多方国际治理结构，并纳入支撑其工作所需的技术和组织工具。

May, 2022

使用自然语言推理评估数据生成文本的语义准确性

本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法，并利用该方法来检验两个方向之间的文本蕴含，从而揭示输出中的遗漏或虚构。实验证明，该指标能够在鉴定系统输出的错误方面达到高的精度。

Nov, 2020

ValueNet：基于数据库信息学习的自然语言到 SQL 系统

本论文提出了两个端到端的自然语言查询数据库系统 ValueNet light 和 ValueNet，利用 Spider 数据集，并通过使用来源于基础数据的信息提取用户问句中的值，进行自然语言到 SQL 语言的转化，并在实验中证实了其具有符合工业标准的准确率。

May, 2020

可扩展的、数据驱动的理论: NLP 科学进展的范式

我提出了一种以发展可扩展的、数据驱动的语言结构理论为核心的 NLP 科学进展的理念，该理念在于以严格限定的方式收集数据，并通过机器学习构建解释性理论，以构建可理解的 AI 系统的基础。本文介绍了使用基于问题 - 答案的语义角色标注 (QA-SRL) 对浅层语义结构进行数据驱动理论研究的几个调查，以及收集数据和理论建模的原则，这些原则能够指导未来的科学进展。

Dec, 2023

神经数据转换为文本生成的创新

本文调查了神经元数据到文本生成的方法、基准数据集和评估协议，突出了技术应用阶段及其在自然语言生成领域中的前景。

Jul, 2022