校准你的听众！针对语用说话人的鲁棒基于交际的培训

EMNLPOct, 2021

校准你的听众！针对语用说话人的鲁棒基于交际的培训

Calibrate your listeners! Robust communication-based training for pragmatic speakers

Rose E. Wang, Julia White, Jesse Mu, Noah D. Goodman

TL;DR为了在对话中发挥更好的作用，自然语言处理系统需要受到训练以产生上下文有用的话语。我们提出了一种使用神经听者的集团来规范演讲者训练的方法，以减少语义漂移，从而使演讲者能够生成实用的话语，同时达到大量词汇的量化数量和大规模推广的目的。

Abstract

To be good conversational partners, natural language processing (NLP) systems should be trained to produce contextually useful utterances. Prior work has investigated training NLP systems with communication-based object

natural language processing communication-based objectives neural listener semantic drift uncertainty calibration

发现论文，激发创造

Renard：从叙事文本中提取人物网络的模块化流程

Renard 是一个 Python 库，允许用户自定义自然语言处理（NLP）管道，从叙事文本中提取角色网络。与现有工具不同，Renard 可以提取动态网络和更常见的静态网络。Renard 管道是模块化的：用户可以选择每个 NLP 子任务的实现，以提取角色网络。这使用户可以将管道专门用于特定类型的文本，并研究每个子任务对提取网络的影响。

Jul, 2024

通用逼近理论：大型语言模型的基础理论

利用通用逼近理论（UAT）作为理论背景，研究了语言模型的理论基础和技术策略，探讨了 Transformer 的有效性、In-Context Learning、精调和修剪的实用性。

Jul, 2024

事件响应人员的电子邮件归档、处理和标记系统

提出了一种名为 POST 的 API 驱动的无服务器电子邮件归档、处理和标记工作流解决方案，用于快速搜索恶意内容，降低成本并提供高效的电子邮件安全和取证能力。

Jul, 2024

LLM 生成的自然语言遵循缩放定律：新探索与数据增强方法

使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的，可能会影响分类器的性能。为了解决这些问题，引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验，揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差，强调了人类自然语言的复杂性优势，并对语言风格进行了解释性的讨论，为大型语言模型的扩展奠定了坚实的基础。此外，引入了一种新的数据增强方法，称为 ZGPTDA，利用基于标度律的模糊计算机制对 GPT-4 生成的数据进行决策。在真实世界的场景下进行的大量实验证实了 ZGPTDA 的有效性（将 Bert 和 RoBerta 的 F1 值提高了 7-10%）和竞争力（在 DeBerta 上的准确性超过了最近的 AugGPT 和 GENCO 方法约 2%）。此外，揭示了一些有趣的发现，如 Hilberg 的定律和 Taylor 的定律对文本分类可以带来更多的好处等。

Jun, 2024

IDT：双任务对抗攻击用于隐私保护

本研究使用对抗攻击技术改变文本以欺骗隐私分类器，同时保持针对其他任务的分类器预测不变，提出了 IDT 方法，分析辅助及可解释模型的预测结果，以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇，实验证明 IDT 在保护隐私的同时仍保持了文本的实用性，并且在欺骗隐私分类器的任务上优于现有方法。

Jun, 2024

TocBERT: 使用双向转换器进行医疗文档结构提取

TocBERT 是一个使用双向转换器进行文本分割的新解决方案，它通过从语义表示中检测标题和子标题来训练一个监督式的解决方案，该任务被制定为命名实体识别（NER）问题。它在医学文本分割应用中表现出色，用于细调 Bio-ClinicalBERT 模型以分割 MIMIC-III 数据集的出院总结，并在人工标注的 250 个注释数据集上取得了较高的 F1 分数。在线性文本分割问题上达到了 84.6％的 F1 分数，在分层文本分割问题上达到了 72.8％的 F1 分数，它在区分标题和副标题方面表现出色，超越了仔细设计的基于规则的解决方案。

Jun, 2024

快速优化器基准测试

我们介绍了快速优化器基准（FOB），这是一种用于在其开发过程中评估深度学习优化器的工具。该基准支持来自多个领域（如计算机视觉、自然语言处理和图学习）的任务。其重点在于方便使用，具有人类可读的 YAML 配置、SLURM 集成和绘图实用程序。FOB 可与现有的超参数优化（HPO）工具一起使用，因为它处理训练和恢复运行。模块化设计使其能够集成到自定义流水线中，只需将其作为任务集合使用。我们通过一个优化器比较的示例展示了我们的工具的用法。FOB 可以在 GitHub 上找到：https://github.com/。

Jun, 2024

基于改进的 BERTSum-LSTM 模型的 LCSTS 数据集信息提取研究

本文研究了基于改进的 BERTSum-LSTM 模型的 LCSTS 数据集的信息提取方法，实验结果表明该方法对生成中文新闻摘要有良好效果，对于新闻摘要的构建具有重要意义。

Jun, 2024

多模态证据融合网络用于可信 PET/CT 肿瘤分割

在计算机辅助肿瘤诊断和治疗中，精确分割 PET/CT 图像对癌症的诊断和治疗非常重要。本文提出了一种新颖的多模态证据融合网络（MEFN），通过交叉模态特征学习（CFL）模块和多模态可信融合（MTF）模块，以有效整合 PET 和 CT 图像中的互补信息并考虑模态不确定性，进而提高肿瘤分割的准确性和可信度。通过在两个公开的 PET/CT 数据集上进行广泛的对比实验，结果表明我们的方法在 DSC 评分上分别比现有方法提高了 2.15% 和 3.23%。此外，我们的模型还能够为放射科医生提供可信的分割结果不确定性，对于临床应用非常重要。

Jun, 2024

探索在天文学科学出版物中使用 ChatGPT 的应用

通过对 ChatGPT 用于学术写作时所使用的词进行提取，以及在 100 万篇天文学文章中搜索这些词，研究评估了这些模型在天文学论文写作中的广泛应用，并提出建议，鼓励组织、出版商和研究人员共同制定伦理和实用指南，以最大程度地发挥这些系统的优势并保持科学严谨。

Jun, 2024