- ACL对句级双语的恢复文档注释
我们对德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的三个大规模数据集(ParaCrawl、新闻评论和 Europarl)进行了文档级信息的重建,并引入了文档级过滤技术作为传统双语过滤的替代方法。我们通过分析表明,该方法偏好于与上下文一致 - 固体材料数据驱动本构定律综述
该综述论文重点介绍了最先进的数据驱动技术,用于发现、编码、替代或仿真描述固体无路径依赖响应的本构法则。我们旨在提供一个有组织的分类体系,介绍过去几十年中开发的各种方法的优点和缺点,并讨论在不同尺度上解释和预测力学行为的不同技术。我们将方法分 - 去中心化学习对节点和数据干扰的鲁棒性
去中心化学习具有鲁棒性,在节点破坏和数据可用性方面表现出非凡的稳定性和分类准确率。
- 乌克兰文本分类:跨语言知识迁移方法的探索
我们利用 NLP 的最新进展,探索跨语言知识转移方法,避免手动数据整理,以改善 NLP 文本分类领域中各种语言之间数据可用性的不平衡问题,并在三个文本分类任务上进行测试,提供最佳设置的 “配方”。
- COLING高质量文本转语音数据集生成的自动化端到端开源软件
通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式,本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集,以满足对高质量数据的重要需求,从而简化 TTS 模型的数据集创建过 - 有限数据集上利用生成模型进行目标检测的迁移学习
我们提出了一种转移学习框架,通过基于扩散的生成模型在少量真实数据情景下改善目标检测器的性能,从而解决了数据有限性的挑战。该方法在海洋生物学和城市环境中的鱼类和汽车目标检测任务中取得了与数千张图像训练模型相媲美的检测性能,为各个领域的基于生成 - 评估基于基础模型的联邦学习的稳健性、隐私性和公平性
通过将基础模型整合到联邦学习中,我们研究了其对稳健性、隐私和公平性的影响,并提出了一套应对这些挑战的标准和策略,同时确定了推进该领域的潜在研究方向,为构建可靠、安全和公平的联邦学习系统奠定了基础。
- 无观测区域的时空预测
我们提出一种名为 STSM 的模型,通过对相邻具有记录数据的区域进行对比学习,从类似感兴趣区域的位置中学习,通过选择性的屏蔽策略实现学习,最终在交通和空气污染预测任务中优于现有模型,持续降低误差。
- 在心理健康护理中的大型语言模型:一项范围审查
大语言模型在精神卫生保健中展示了广泛的应用,涵盖诊断、患者支持等方面。然而,数据可用性、精确处理心理状态和有效评估方法等问题,导致了临床适用性和伦理考虑方面的差距存在,要推动精神卫生保健中大语言模型的进一步发展,需要依靠多学科协作、数据集开 - 使用联邦学习训练语义沟通系统
通过利用用户数据来解决隐私问题,降低信息传输量并减少网络流量,我们在联邦学习设置中探索语义通信,并提出了一种称为 FedLol 的机制来聚合来自客户端的全局模型,与基线方法相比,详尽的模拟结果证明了我们提出的技术的有效性。
- GastroVision: 计算机辅助胃肠疾病检测的多类胃镜图像数据集
为了在临床实践中整合实时人工智能系统,需要解决数据可用性、数据质量和缺乏多样性数据集等挑战。为此,我们介绍了 GastroVision,一个多中心开放获取的胃肠内镜数据集,该数据集包括来自胃肠道的 24 种不同病理异常、息肉切除病例和正常发 - VISION 数据集:基于视觉的工业检测基准测试
通过引入 VISION 数据集,我们希望为实现基于视觉的工业检测的进一步提高带来新的挑战和方法。
- 法律领域中的自然语言处理
本文总结了 NLP 与法律领域的现状并关注最近的技术和实质性发展。通过构建并分析过去十年发表的超过六百篇与 NLP & 法律相关的论文,我们发现了一些主要趋势,并且我们相信这些趋势对于该领域的未来发展具有积极意义,但是仍有许多问题需要解决。
- 一些语言比其他语言更重要:深入探究 NLP 世界中的语言差异
该论文通过对 NLP 领域不同语言间存在的差异进行综合分析,基于现有的说话人口和活力等方面的语言分类,研究数据资源、NLP/CL 研究、多语言网络平台和预训练多语言模型的分布情况,发现许多语言并未被覆盖,同时明显存在差异,对此提出了一些原因 - 大规模数字化电网:以用为本人工智能的机遇和挑战
本文分析了大规模数字化电网中数据可用性、计算能力和人工智能算法开发这三个关键因素对电网的影响,并以实际案例说明其对电力系统运行和规划实践的影响和应用,同时提出了数据、计算和人工智能算法方面存在的挑战和研究机会,并突出了电力行业在碳减排方面所 - ACL估计语言分布的熵
本文研究了 Shannon 熵在语言学任务中的应用,重点关注从可观察的语言数据中估算熵的效果,并通过两个信息论语言学研究的复制实验发现,由于过度依赖不良熵估算器,报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议 - 在线广告中用户响应预测
本研究通过综述在线广告平台中利用机器学习方法的用户响应预测,提出分类方法,介绍用户数据可用性、特点以及现有挑战,并探讨相关应用和数据集,旨在分析在线广告生态系统的相关方和方法。
- EMNLP智能人工代理数据增强的可控文本生成
通过文本生成技术,使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据,从而实现更快地开发新功能。该方法需要直接优化,适用于有限的数据,并明显优于以往的受控文本生成技术。此外,生成的数据用作外在意图分类任务的附加训练样本,增强了低 - EMNLP领域自适应文本风格转化
本文提出一种域自适应文本风格转移模型,能够处理非平行数据和域偏移问题,并在形式和情感风格的转换任务上取得良好的效果。
- 量子机器学习:经典视角
通过回顾机器学习中的量子计算文献,研究了量子算法的限制、与传统经典算法的比较,以及为什么期望量子资源能够提供学习问题的优势,而在存在噪声和某些计算困难的问题中,量子计算令人期待的路线。