揭示深度学习再现性危机">
    </div>
   </section>
   <article>
    <a class=回到博客主页

揭示深度学习再现性危机

再现性 2022年7月18日
笛卡尔所做的是很好的一步。你增加了很多方法,特别是把薄板的颜色纳入哲学考虑。如果说我看得远一点,那是因为我站在巨人的肩膀上。——艾萨克·牛顿

我们为自己能够逐步构建、稳步增加我们集体能够利用的数百万拍字节的知识而感到自豪。神奇,不是吗?现在想象一下,这个巨人实际上是100万个穿着风衣的小人,用胶带绑在一个摇摇巴巴的50英尺高的梯子上;笛卡尔和牛顿在混乱中。

研究需要民主化

自远古以来,科学一直依赖于对任何现有结果或发现的系统复制。重复实验及其报告的结果仍然是任何科学理论验证的基石。

根据这一认识,科学界认识到了严峻复制危机我们在心理学和医学领域面临的问题是:由于在这些领域进行的实验涉及许多微妙的和不可控的因素,重现过去的结果几乎是不可能的,这导致了对许多已提出的假设提出质疑的不幸后果。

计算机科学已经创造了一个自己的沙盒,里面有强大的逻辑驱动计算器,应该首先对这个问题产生免疫力。

然而,事实可能并非如此。举个例子2021年秋季再现性挑战这是一个旨在鼓励复制最近发表的顶级会议研究成果的活动。进入双盲同行评审过程的论文只有43/102(~%42.16!)被接受,这意味着超过一半的论文,尽管写的时候把复制放在第一位实际上无法复制。

与科学方法一样,探索这种现象盛行的原因是必要的。最佳电子竞技即时竞猜平台。我认为对这个谜题至关重要的一块是研究民主化——或者缺乏。处于可复制状态的研究可能存在,但对整个科学界来说可能是不可接近的。以下是一些原因

Tšitiso ea Lipuo -语言障碍

其中一个原因可能和科学传播的语言一样简单。

我使用谷歌翻译将“语言障碍”从其支持的名册中转换为随机语言(在此情况下:塞索托语).我得到了“Tšitiso ea Lipuo”,翻译成英语就是“语言颠覆”;翻译,尤其是在数据有限的情况下,还远远不够完美。

由于绝大多数发表的研究都是专门用英语进行的,谷歌Translate不够可靠,不能自主翻译任意的文章,让我们来探索站立的研究环境工作为多少人服务。最佳电子竞技即时竞猜平台。让我们从一些开始英语口语的统计数据,来自维基百科

口语
本地的 360 - 400
第二语言 7.5亿年
外语 600 - 700
总计 20.5亿年

背景:世界人口处于~ 78亿居民-保守地说,这地方只有约23.3%的世界人口有能力为今天的研究作出贡献。

以代码为中心的研究最美妙的一个方面是它只使用英语脚本-即字母和数字,语法规则严格遵循句法。它允许像ChavaScript:希伯来语版本的JavaScript!

因此,流利的英语不再是理解项目的必要条件。当研究集中在解释可能引起读者兴趣的决定时,由于源代码翻译本身近乎完美,读者可以在翻译的解释中填补谷歌可能无法恰当地上下文化的任何空白。

写论文,还是玩《中国私语》?

马克·罗柏,在他的愉快关于超级跑车的视频,讨论了能源的低效率:

与其间接地、低效率地消耗一堆不同的能源,并在每一步都损失一堆能源,不如直接消耗能量."

在一个研究的背景下,上述引用强调了挑战的一个潜在的有损的信息转移。学术论文,虽然看似集中和视觉上的原始(\(\LaTeX\)我的爱人),可以是一个低效的媒介。原因如下:

  • 纯科学领域——例如物理学——基本上依赖研究论文来记录相关的证据、发明和发现。
  • CS研究几乎总是涉及到代码。类似于科学理论是如何与数学证明一起编写的,与代码库一起开发文档是很有意义的——就像开放源码项目一样!雷竞技技官网下载

因此,研究流程(至少对于我所在的研究实验室来说)通常包括在git存储库中开发代码库,并在共享的wiki或类似的地方做笔记。最后一篇文章是在添加了所有必需的样板文件之后从wiki构建的,它很容易受到前面讨论的信息丢失的影响。

在整个项目过程中讨论和实施的想法包含了对完整理解研究过程至关重要的宝贵花絮。其中许多在复制过程中被发现是缺失的,有时几乎是隐含在文本中。记录最终结果是图片的一小部分,并围绕研究本身的来源建立讨论,突出部分,并扩大其意义与README.md作为指定的入境点具有至关重要的潜力过程文档得到这些结果-模仿为研究而开发的系统,不是在文字上,而是在精神上。

长度的限制因为文字内容是我确信在高中时就已经遗忘的遗物。以XYZ为主题写600字-这对任何事情都没有意义,至少是学术论文!在理想长度之外延长或缩短文本只会有损信息的完整性,让读者更难理解真正的小说内容。

幸运的是,我们似乎确实做到了一些这个部门的进步。浏览一下前15个会议research.com,我只找到了两个会议的最小页面数。然而,15个中有13个仍然要求最大页数。这两个接受任意长度论文的会议都提到,如果论文的平均长度在7000-8000字之间,那么就会受到额外的审查。这可以防止作者故意混淆他们的贡献;在我看来,这是两个硬限制的折中方案。

然后,我在全球排名前15的会议之一的提交指南中发现了这样的简介:

(对于已录用的论文,最多可额外购买两页,每页需另付费用;请注意,在提交时,论文要求遵守以上6+1格式。)”

我甚至还没有机会接触到那些利用垄断市场的期刊,它们花大价钱和它们一起出版,然后转而向读者收取更多的费用(Sci-Hub我的珍贵的)。关于这些期刊提供的效用,可以提出相关成本的论点;但是,在没有经过任何额外审查的情况下,对排名前15位的研究会议的每一页信息收费,当然需要严肃的理由。

论文对再现性

到目前为止,我们所讨论的再现性危机的原因都是技术性的。然而,有一些可能与错位的激励有关。以下是一些例子:

除了声称7是一个神奇的幸运数字,而不是最近刚刚推出的最新YOLO发布后的数字YOLOv7包含在其readme.md以下几点:

⚠️重要提示:YOLOv7在Github上不是最新的版本,许多特性是闭源的,但你可以从那里获得它https://manaai.cn

回到之前的“纯科学领域”;阿尔伯特·爱因斯坦博士本可以简单地告诉每个人\(E=mc^2 \),但没有3页的手稿解释他不可思议的工作,给了研究人员指出的机会最初手稿中的谬误——它对我们理解周围世界的贡献总体来说毫无意义。它只是没有任何意义发表闭源研究。

此外,还有一些引人注目的黑箱方法,比如Asm2Vec——他们发布二进制文件而不是源代码。英特尔的-一个二进制工具-封闭源代码的代码,甚至不能维护一个活跃的版本历史,只允许下载最新的版本,向后兼容为零。因此,一些较早的论文将Pin工具列为一个依赖项不能使用因为所需的版本和源代码都位于一个私有的已断开连接的数据库(read: graveyard)上,等待时间的结束。

这与我们最初的问题有关复制危机-通过阻止独立研究人员查看沙盒内的参数,它成为一个不可控因素的有效等效。就像心理学或医学领域的某些论文一样,结果无法复制。唯一的区别是,在这种情况下添加了不确定性人为地

科学v商业

我将以一个个人故事作为结束。当第二波COVID-19在2021年夏天最严重地袭击印度时,我们面临着医院床位严重短缺的问题。人们因为无法及时获得氧气而死亡。一些医院确实有可用的床位,但是,没有一个系统来显示可用床位的总列表,所以至少,我们可以优化有限的资源。我们在全国各地开展了一些工作,从互联网上抓取了大量列表,然后团队将这些数字分开,打电话询问可用床位的数量。然后,这个列表通过内部和外部的小组分享,所以任何有需要的人都可以参考它们,希望找到一张床。

我要讲什么?再忍耐我一会儿。

我想谷歌复式革命性的系统,可以自动打电话——将是这场危机的完美解决方案。如果我们可以配置它,让它每天以特定的间隔给医院打电话,并利用谷歌巨大的可信度创建一个仪表板——它将允许数百万家医院拥有有效的、更新的病床数量,同样重要的是,每个上网的人都可以立即访问这些数据。

在与Duplex团队取得联系后,我能够就这样的集成——共享我能够积累的数据-不幸的是,它从来没有结束,因为我没有得到回应后,我分享了我收集的数据。

我从中得到了什么?善意在很大程度上是通过电视实现的。如果这个程序的代码是开源的,那么就有可能众包资金来确保雷竞技技官网下载满足网络的计算需求,许多人的生命就可以得到拯救。


相反,公司选择鱼与熊食:将研究会议作为广告载体,而不提供必要的代码或数据来验证给定的方法。它将会议从一个沙箱变成一个展示平台。

然而,与YOLOv7或Asm2Vec这样的二进制blob例子不同,这些最近的风险可能更糟糕——它们没有提供供用户随意摆弄的黑盒二进制,而是完全作为服务运行。你给他们一个气球,他们转过身,把气球变回一个有趣的动物的形状,然后把气球还给你。你可能会印象深刻,但最终我们什么都没学到。

要么发表论文并编写代码,并将其视为研究,要么构建PR并将其用作一个项目。同时做这两件事就是两头抓,作为一个社区,我们不应该接受这一点。

所以:现在什么?

我不完全确定从这里开始的最佳方式是什么。我认为第0步应该是开源代码,在最坏的情况下通过基于时间的延迟——类似于专利制度——这样,公司可以利用开发中的技术,而不是完全妨碍整个社区。

至于论文中被设计复制的细微差别,我会在另一个博客上进行讨论机器学习再现性量表量化可重复性是一个很好的方法;特别是如果在会议上强调了可重复性的指标,这使得研究人员在深入研究之前可以进行试金石测试。为了更全面地理解可再现性危机,还有一个即将举行的研讨会普林斯顿大学研究人员的研究,旨在解决这一问题。

我还计划对这个2021年秋季再现性挑战,看看是否理解复制尝试背后的原因-失败和成功-可以更具体地确定方法,以改善这个可怕的领域内的信息分发。的草稿纸由普林斯顿研讨会组织者所写数据泄漏作为重复性失败的普遍原因,我很好奇是否会有独立调查得出类似的结果。如果你觉得这是你感兴趣的,请继续关注!


确认

我想感谢(按字母顺序排列)Arjun Vikram, Dean Pleban, Nir Barazida和Yono Mittlefehldt,感谢他们在整个写作过程中所有的建设性评论,反馈和输入;谢谢你帮助我以最好的方式表达我的想法!

标签

Jinen Setpal

机器学习工程师@ DAGsHub。机器视觉,自然语言处理与网络安全研究。

太棒了!您已经成功订阅。
太棒了!接下来,完成检查以获得完全访问权。
欢迎回来!您已经成功登录。
成功!您的帐户已完全激活,您现在可以访问所有内容。