从源代码中挖掘成语

Apr, 2014

Mining Idioms from Source Code

Miltiadis Allamanis, Charles Sutton

TL;DR本文介绍了 HAGGIS 系统，作为第一个用于从软件项目语料库中自动挖掘代码习惯用法的方法，可利用最新的自然语言处理技术非参数贝叶斯概率树替换语法，该系统可发现描述重要程序概念的代码习惯用法。

Abstract

We present the first method for automatically mining code idioms from a corpus of previously written, idiomatic software projects. We take the view that a code idiom is a syntactic fragment that recurs across projects and has a single semantic role. Idioms may have metavariables, such

mining code idioms syntactic fragments semantic roles haggis bayesian probabilistic tree substitution grammars

发现论文，激发创造

学习可扩展语义解析的程序习语

本文提出了一种迭代方法，通过反复折叠大型源代码语法树的最常见的深度 2 子树来提取代码习惯用语，并训练语义解析器在解码期间应用这些习惯用语，在最近的上下文相关语义解析任务中应用基于习惯的解码，提高了 2.2％BLEU 得分，同时将训练时间缩短了 50％以上。

Apr, 2019

学习代码习语的程序综合和语义解析

本文提出了一种名为 PATOIS 的系统，它通过自动挖掘常见的代码习惯用法，并将其合并到神经程序合成语言中，通过训练基于树结构的神经合成器来使用这些模式，以在每一代步骤中显式地交错高级别和低级别推理来实现通用源代码从自然语言规范中的程序合成。评估表明，使用这类学习的代码习惯可以提高综合器的准确性，其中使用了两个复杂的语义解析数据集。

Jun, 2019

会话系统中成语的向量表征

本文研究表明，由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复，通过利用潜在习惯表达（PIE）- 英语习语语料库，我们实现了 98％F1 宏分数的准确率和更好的会话回复效果，为公众贡献了模型检查点 / 演示和代码。

May, 2022

使用语义兼容性进行惯用语表达式识别

本研究提出了一种多阶段深度神经网络架构，利用注意力机制和上下文信息对句子中的习语表达进行定位，通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果，并具有对未见过的习语表达的识别能力。

Oct, 2021

由大胆解决问题到破解难题：成语文本生成

本篇文章研究了一种新的文本生成应用 —— 成语句子生成，通过使用神经模型和心理语言学理论，该文章提出一种有效转化直接字面短语到相应成语短语的方法，该方法在新建数据集上表现突出，超过其他文本生成竞争基准模型。

Apr, 2021

神经机器翻译中成语的自动评估和分析

本文探讨了神经机器翻译中存在的习语翻译难题，提出了一个新的自动化量化习语翻译错误的方法，并通过对模型的训练以及不同翻译测试集的测试，探索了单语预训练和习语上下文因素对翻译质量的影响。

Oct, 2022

潜在习语表达（PIE）英语：习语类语料库

本文提供一个大规模的，用于英语自然语言处理的潜在成语表达（Potential Idiomatic Expression，PIE）数据集，其中包括超过 1,200 种逾二十一万个语料库样例，涵盖了十类（或意义）成语及其词义，提供了基准和比较三种常见的模型（包括 BERT 模型）的分类实验，该数据集可扩展，可用于各种 NLP 任务。

Apr, 2021

成语语料库构建的众包游戏化

本文介绍了一种基于游戏化众包方法的语言学习材料收集方法，可以有效地收集各种表达习惯用语的例句，这一方法在语言独立性、数据收集的效率以及成果的可行性等方面都得到了验证。

Feb, 2021

Idiomify - 基于 Word2Vec 的英语成语词汇搭配辅助逆向词典构建，面向非母语学习者

本文旨在构建一个带有搭配支持的英语成语反向词典以帮助非母语学习者学习英语成语，通过应用 PMI 和 Word2Vec 等分析方法，作者们尝试解决了从语料库中挖掘成语的困境，同时提出了反向词典的实现方案。研究结果表明，通过机器学习等方法，可以进一步优化该成语反向词典。

Apr, 2022

使用主题模型和情感强度分类习语和字面表达

本文提出了一个用于自动分类习语和字面表达的算法，通过利用 LDA 无监督聚类方法和情感分析技术，采用词袋表示法来提取包含习语和字面表达的段落中的主题，从而实现对习语和字面表达的区分。

Feb, 2018