- 探索乌尔都语中的句法模式:依存分析的深度研究
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
- 使用 LLM(例如 ChatGPT)设计和实现 RISC 处理器:执行、挑战和局限性
使用大型语言模型(LLM)生成代码的可行性进行了讨论,应用于设计 RISC。通过解析、标记化、编码、注意机制、对生成代码的令牌进行采样和迭代等相关步骤进行了回顾。通过测试平台和 FPGA 板上的硬件实现对 RISC 组件的生成代码进行了验证 - 动态语法映射:一种无监督句法分析的新方法
语言模型的关注分布可以表达句法依赖关系。本研究介绍了动态句法映射(DSM)这一方法来无偏诱导这些结构,并发现通过使用更多的替代词语可以显著提高对自然语言数据的解析精度,尤其在长距离的主谓一致性方面。同时,DSM 在不同的解析场景中都表现出适 - EMNLP4 和 7 位标记的投射和非投射依赖树
引入了一种将任何工程性依赖树表示为一系列 4 位标签(每个词一个标签)的用于解析的编码方法,其标签的位表示(1)是否为左或右从属关系,(2)是否为其父节点的最外层(左 / 右)从属关系,(3)是否具有左子节点,和(4)是否具有右子节点。在多 - ICML使用多头注意力的用户代理字符串解析新方法用于漏洞分析
本文提出了使用多头注意力机制变压器来解析用户代理字符串的新方法,并讨论了如何利用解析后的用户代理字符串评估公共 IT 网络或区域的漏洞得分。
- ACL另一个对形态标记的死胡同?扰动输入和解析
通过对 14 个不同的 UD 文本库进行的对抗实验,本文证明通过对句子中的形态信息进行解析可以修正词性标记中的误差。但是在面对词汇错误时,它们会降低转换和基于图的解析器的性能。
- USTEP: 基于演化搜索树的日志流结构化
提出一种基于不断演化的树结构的在线日志解析方法 USTEP,并通过广泛数据集的评估结果表明,与其他在线方法相比,该方法在效率和鲁棒性方面具有卓越优势。
- Marpa 和可空符号
该论文报告了我们在处理可为空符号时的一些经验,介绍了 Earley 算法的相关研究,以及最终采用的解决方案。
- 韵律特征提高句子分割和分析
本研究旨在探究语调在非分段语音解析中的作用。在英语 Switchboard 语料库的实验中,我们发现语调对模型的解析性能和句子边界识别准确性有所帮助,但最佳解析器并不一定产生最佳句子分割性能,最佳解析来自于将句子边界与其他成分边界联合建模。
- ACL使用概率决策树微调细微的解析差异:以名词补语从句中的后置 “that” 与关系从句为例
使用通用依存标注法解析英文中的相对从句和名词补语从句,并在相应的关系代词和补语从句中使用不同的标记。通过算法在 GUM Treebank 上进行语料标注,进而使用 TreeTagger 学习后置 “that” 的两种用法,并研究训练集大小对 - ACL使用动作 - 指针变换器进行 AMR 解析
本文提出了一种基于 Transformer 架构的、利用硬注意与目标端点机制相结合的过渡式 AMR 解析器,该解析器通过显式地对齐目标节点与源句子标记而提高了表现。
- EMNLP使用最近邻居剪辑拼接生成数据文本
通过直接拼接选取的文本片段来生成自然语言文本,学习一种策略模型,利用加入和替换文本片段的方式构建自然语言生成模型,并证明了利用加权上下文无关文法的语法分析算法可以找到最短的 oracle 生成过程,最终结果与强基线模型在自动和人类评估上表现 - IWPT 2020 共享任務中的 ADAPT 增強依存分析器
该论文介绍了 ADAPT 系统参加 2020 年 IWPT 共享任务的解析增强通用依存关系的方法,采用 UDPipe 和 UDPipe-future 构建管道方法,使用语义依存图解析器或一系列启发式规则来增强依存图,并在语言平均值方面达到了 - ACL从依赖解析树中提取无头 MWEs: 解析、标注和联合建模方法
对于平面结构的多词表达式(flat-structure MWEs),识别标记比解析更准确。使用提出的联合解码算法,结合解析和标记策略,可以获得更高的准确性,其提高来自解析器和标记器之间的特征共享。
- 探针与解析器的故事
本研究对比了一个新型结构探针和传统解析器,发现两种方法在不同语言上效果并存,提出了关于使用哪种技术的问题。
- AAAIDocParser: 文档呈现的分层结构解析
本文提出了 DocParser,它是一种端到端的系统,可以解析包括所有文本元素、嵌套图形、表格和表格单元结构在内的完整文档结构,并提出了一种基于弱监督的可扩展学习框架以提高文档结构解析性能。研究表明,相比于没有弱监督的基线,这种方法可以提高 - EMNLP神经生成修辞结构分析
本文提出了第一个用生成模型进行 RST 解析的文档级 RNN 语法,通过一种新的 beam search 算法,在而不展示左分支的偏差下,在未标注和标注的 F1 值上分别提高 6.8 和 2.9,超越了所有不使用额外训练数据的最新复制研究中 - X-SQL:使用上下文强化架构表示
本文提出了 X-SQL,这是一个新的网络架构,旨在解决将自然语言转换为 SQL 查询的问题。X-SQL 提出了结构模式表示与 BERT 风格的预训练模型的上下文输出相结合,并结合类型信息学习下游任务的新模式表示。我们在 WikiSQL 数据 - ACL跨表征学习的序列标注解析
本文将解析问题作为多任务学习来探究,通过添加解析范式作为辅助损失,在其他范式表现中保持一致提高性能,探讨了一种 MTL 序列标记模型,以几乎不损失性能和速度的代价解析两个表示,总体结果表明,平均来说,具有属于成分解析的辅助损失的 MTL 模 - ACL自动生成高质量 CCGbanks,用于解析领域自适应
本文提出了一种基于依存树的语料库自动生成的领域自适应方法,简单易用且性能显著,适用于最先进的解析器,通过对生物医学文本、问题句子、语音对话和数学问题的实验数据验证,性能提高了 6.3% 到 8.3%。