- 掌握 Transformer:隐含的推理者 —— 通向泛化极限的机械之旅
我们研究 transformers 模型是否能够学会隐性地进行参数化知识推理,发现它们能够通过全面且超过过拟合的训练学会隐性推理,但在不同推理类型上的推广程度存在差异:在面对分布之外的例子时,transformers 在组合推理上无法进行系 - 基于区间值模糊软集能量的决策算法
我们的工作继续探讨了区间值模糊软集的特性,该特性是通过组合区间值模糊集和软集得到的。我们引入了区间值模糊软集的能量概念,以及悲观和乐观能量,从而构建了一个有效的决策算法。通过例子,本文展示了该算法如何成功应用于涉及不确定性的问题。此外,我们 - 比较聚类方法使用相对有效性指数的研究
这项研究通过对超过 270 万个聚类分区进行实验,发现 RVIs 在非传统任务上并不适用,对此类应用得出的结论可能是误导性的,因此建议使用外部验证和相关领域知识来选择正规化程序、表示方法和距离度量。
- 亚伯杀该难以捕捉的机器翻译问题
通过对机器翻译服务的翻译错误进行观察和分析,本文旨在揭示基于人工智能的自动翻译器在结构上无法完全捕捉的问题,并提出了对翻译理论和技术的修订建议,特别关注文化文本的翻译。
- 网络统计:用于评估大型语言模型在网络安全领域的基准数据集
介绍了 CyberMetric,这是一个包含 10,000 个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较,结果显示 LLMs 在几乎 - 算法性能无假设测试的限制
对于限定的数据量,我们研究了算法评估与比较的理论极限,发现在黑盒测试下无法客观评价算法性能,除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单,只需要保留一组验证数据即可。同样地,我们探讨了算法稳定性假设是否足以解决问题,结 - Gemini 语言能力深度探析
Google Gemini 模型是首个与 OpenAI GPT 系列在各种任务上全面匹敌的模型,本文对该模型的语言能力进行深入探索,并提供第三方客观比较 OpenAI GPT 和 Google Gemini 模型的能力,分析两者各自擅长的领 - 相似文档模板匹配算法
该研究提出了一种全面的医疗文件验证方法,通过模板提取、比较和欺诈检测等先进技术的整合,有效解决了医疗文件验证中的模板提取、比较、欺诈检测和适应性问题。
- 面向基于 Transformer 的逆向词典模型的定义质量评估
比较变体 transformers 模型在解决逆向词典任务中的表现,并探索其在严肃游戏《字典游戏》中的应用。
- 语言模型的物理学:第 3.2 部分,知识操作
本文研究了语言模型在推理过程中利用存储的知识的能力,发现预训练的语言模型在知识检索方面表现出色,但在简单的分类、比较和逆向搜索任务方面表现较差,即使在训练和推理过程中使用了控制思维链。研究的主要贡献是通过一个合成数据集的控制实验,证实了语言 - 研究和改进人类和机器的推理能力
通过对大型语言模型(LLM)和人类的推理进行比较,本研究使用传统的认知心理学工具调查和比较它们的表现,结果显示大部分模型呈现了类似于人类具有错误倾向、启发式推理的推理错误,然而,深入比较发现最近的 LLM 版本在与人类推理的区别方面存在重要 - 神经架构搜索基准是否设计良好?深入探讨操作的重要性
本文通过对 NAS-Benchmark 的分析,证明了通过直接在 NAS-Bench-201,ImageNet16-120 和 TransNAS-Bench-101 上搜索可以产生更可靠的结果,找到了卷积层对体系结构性能的影响,为评估和比较 - COLING机器阅读,快与慢:模型何时 “理解” 语言?
我们研究了阅读理解模型相对于指代消解和比较两种语言技能的行为,以了解深度学习模型在自然语言理解中的表现。研究通过显著性分数和反事实解释观察了 BERT 家族的五个模型,并发现基于更大编码器的系统更可能依赖于正确的信息。然而,即使是这些更大的 - 如何计算我的候选者?诊断计算算法的分类和分类
本文提出了一种诊断计算方法的分类法,以实现它们的标准化评估、分类和比较。
- 多重抄袭的综述:一项性能比较研究
本文是关于抄袭检测在自然语言处理中的研究论文,旨在综合评估不同类型抄袭检测算法的准确性和各自优缺点。通过实验发现,基于句子分离、词语分离和同义词的句子对比方法可以提高抄袭检测的准确率。
- 评估基于 NLP 的软件工程模型
本文探讨了 NLP 模型在软件工程问题上的应用,指出当前对这些模型的评估缺乏一致性和广泛接受的协议,提出有必要提供一种评估 NLP 模型的方法论,以实现一致的评估和公平高效的比较。
- SIGIR产品比较扩展至多家店铺的初步见解
本研究旨在设计一个比较流水线,以满足电子商务业务的操作约束,并通过多家商店的基准测试和用户研究来展示其性能与可行性,为电子商务推荐领域提供新的解决方案。
- Scopus、Web of Science、Dimensions、Crossref 以及 Microsoft Academic 学术文献数据源的大规模比较
本研究比较了 5 种多学科文献数据来源:Scopus、Web of Science、Dimensions、Crossref 和 Microsoft Academic,并讨论了它们的覆盖率和引用链接的完整性和准确性等方面的差异。
- ICML一个开源的 AutoML 基准测试平台
介绍了一个开放,持续和可扩展的基准测试框架,用于比较 4 个 AutoML 系统在 39 个数据集上的表现,并通过分析结果提高比较的准确性。
- 安全计算同态加密库综述
本文针对同态加密的各类库进行调查,介绍了选择正确的安全计算方法时应考虑的关键特性和权衡,并在这些特性上对六个常见可用的同态加密库(SEAL,HElib,TFHE,Paillier,ELGamal 和 RSA)进行比较。还阐明了不同语言和实际