启动DagsHub 2.0
回到博客主页

启动DagsHub 2.0

协作 2022年1月4日,

今天对我们DagsHub来说是激动人心的一天。我们正在更新DagsHub惊人的新功能,使您能够有效地关闭数据循环,无需DevOps,并升级数据团队合作体验!

我们推出了很多很棒的东西,比如新的主页,对额外数据类型的支持,以及更大的数据集,但今天,我想重点介绍两个新的主要功能——标签而且讨论

博士TL;-你现在可以在DagsHub上注释数据,并在平台上讨论任何文件。开始真的很容易。如果你只是想亲自动手贴上标签,查看我们的教程,或者试试示例项目

这是我们一直在执行的任务

DagsHub一直致力于使数据科学团队合作,特别是社区协作变得可能、简单和有趣。

通过让数据科学家和机器学习工程师在开源数据科学项目中共同工作,我们为协作数据工具设置了一个高标准——如果两个来自地球两端的数据开发人员能够为同一个目标一起工作,特别是如果他们之前不认识对方,那么任何团队都将更有效地与DagsHub合作。

我们已经看到了庞大的国际团队在DagsHub上管理自己的项目,高效地分配任务和评审同事的工作。通过使用DagsHub,他们利用了最佳实践和工作流程,使数据科学项目以10倍的速度大规模生产。

使用DagsHub 2.0关闭数据循环

的想法数据循环或机器学习循环已经流传了一段时间了。这个想法是要有一个闭环数据系统,它做以下工作:

关闭数据循环。一个图。
关闭数据循环。一个图。
  1. 收集数据
  2. 标签数据
  3. 使用数据来训练模型
  4. 部署模型
  5. 收集额外的数据样本(通常是具有挑战性的样本)困难样本矿业
  6. 将新的样本添加到数据集(待标记),再次开始循环。

以数据为中心的人工智能,这是持续改进模型性能的好方法(有时称为持续学习、终身学习或人在循环学习)。

与我们讨论过这个过程的许多团队都表示,尽管它很容易解释,但实现它是一个巨大的挑战。我们已经写过反复出现的挑战当收集数据而且在整个标签过程中,但这里有一个总结:

答:目前还不清楚如何将标签与循环的其余部分连接起来,以及如何随着标签的发展对其进行版本化

尽管许多工具可以帮助您注释数据,但大多数团队发现很难将阶段(2)与数据收集(1)和建模(3)连接起来。他们必须将数据移动到第三方平台,将注释与训练数据同步,并做大量DevOps的繁重工作来设置一切。重新发明这个轮子特别困难,因为这个过程涉及具有不同背景和技术熟练程度的多个涉众(数据工程师、数据科学家、mle、注释人员和领域专家)。

B.循环的最后一部分基本没有解决

成功为循环的1-4步骤创建解决方案的团队发现,很难再构建最后两个步骤——收集额外的数据并将它们反馈到数据集。即使从数据到部署模型的整个周期都是自动化的,收集新数据并将其通过到部署更好的模型的点上,大部分都是手动的(如果存在的话)。

C.很难在整个循环中构建上下文

关于数据项目的信息分布在许多系统和工具中——Slack、实验跟踪、代码存储库,甚至您的标签工具。这导致了知识的缺失,使得交接和审查具有挑战性,调试过程令人沮丧,协作过程缓慢而低效。

引入DagsHub注释

我们在DagsHub的方法是采用出色、流行的开源工具,并以无缝的方式将它们连接到平台上。通过为您完成DevOps工作,同时为面向生产的团队和我们的开源社区提供一致的工作流程,降低进入门槛。

我们已经在Git (GitHub, GitLab等),DVC, MLflow和Jenkins上做过了,今天,我很高兴地宣布Label Studio加入DagsHub工具箱。

标签工作室已经被使用成千上万的人对图像、文本、音频、时间序列、视频和结构化数据进行标记的团队。它提供了一个易于使用和直观的UI来注释数据,当然,它是完全开源的。

DagsHub工具箱。这就是方法
DagsHub工具箱。这就是方法

DagsHub附加值

在基本层面上,这种集成已经提供了一些非常棒的功能:

1.零DevOps标签-在本地使用Label Studio是一回事,但当你想为你的团队提供一个中央注释工具时,托管它就成了一个挑战。有了DagsHub Annotations,只需转到你的Annotations选项卡,创建一个新的annotation项目,并启动一个内置的Label Studio实例并准备好运行。

2.团队访问控制现在你有了一个中央标签平台,你想要添加队友来帮助你。有些可能需要注释,有些可能只需要查看访问权限,而另一些可能是审阅者。DagsHub可以方便地为团队中的每个人设置权限。查看哪个团队成员注释了每个数据点也很容易内置。

但我们并没有就此止步。我们创建了一组令人惊叹的新(且独家)特性,这些特性定义了一个工作流,用于将原始数据连接到DagsHub Annotations,将标记数据连接到训练步骤,并关闭数据循环。

3.从Git或DVC远程同步数据版本-当你创建一个新的DagsHub注释项目,你将通过一个向导,从你的存储库中选择你想要标记的数据,然后样本将自动连接到label Studio,所以你可以开始注释。这意味着:

  • 在将一个数据版本推到DagsHub之后,你不需要做任何其他事情来标记它——数据收集(1)和标记(2)之间的连接就解决了。
  • DagsHub注释是特定于版本的!如果您的数据发生了变化,并且您想要标记一个特定的版本,那么您可以为每个回购创建多个标记项目,这样您就可以使用类似git的流管理注释过程。

4.提交注释到DagsHub—随着时间的推移,注释会发生变化,并添加新的数据。大多数团队使用“石器时代”版本管理来管理不断变化的注释版本(labels_v1.jsonlabels_v2.json等等)。有了DagsHub Annotations,他们就不再需要这样做了。每个annotation项目都包含一个绿色提交按钮在屏幕右上方。一旦您准备好了标签的一个版本,单击该按钮将标签的一个版本与数据一起提交。这意味着你可以:

  • 时间旅行你的注释-您的注释将被保存到一个专用的.labelstudio我们使用它可以让你回到旧的注释版本——只要去你想要的版本,从它创建一个新的注释项目,注释的状态就会在那里,随时可以编辑或查看。
  • 提交一个注释文件用于培训-您可以将注释导出到许多支持的文件类型中的任何一种,例如JSONCSVTSV椰子树YOLO,以及更多!一旦您完成了对数据的注释,您就可以开始建模和实验了,没有任何延迟。只是Git + DVC拉(或fds拉)你的项目,然后你就可以出发了。这包括连接标记步骤(2)和训练步骤(3)。
将注释提交到Git

我们已经了解了DagsHub如何解决将标签连接到循环的其余部分的问题(一个那另外两个呢?

实际上闭合了这个循环

所有这些功能,加上我们的Jenkins集成(或将DagsHub与您最喜欢的自动化工具连接起来),意味着您还可以轻松地关闭数据循环(B)只需要收集你想要添加到训练数据集的新数据样本。

只需使用收集的数据更新数据集,并使用DVC将更新后的数据集推送到DagsHub。一旦它在平台上,打开您的标签项目,标签新数据,并提交。我们的一些社区成员了如何在数据更新时自动化训练——与Jenkins一起创建CML(持续机器学习)。您将得到一个更新的模型,在DagsHub实验选项卡中跟踪性能指标。决定是否部署新模型,循环就完成了!

引入DagsHub讨论来构建项目上下文

我们仍然需要在整个循环中构建上下文的问题(C)—很难在整个循环中构建上下文。DagsHub旨在集中项目上下文,因此您可以在一个地方找到所有内容。

经常与我们的用户交谈的一件事是需要在一些数据点上“写一个注释”,或者在模型文件旁边讨论模型架构。很明显,用于描述存储库的问题、bug和特性请求的问题(issues)还不够好。

评论什么

这就是为什么今天我们还启动了DagsHub讨论,或者我们喜欢在内部称之为“评论一切”。您现在可以讨论存储在DagsHub上的任何文件。您可以对文件、文件夹、代码行、数据文件,甚至图像中的边界框进行注释。

讨论还出现在讨论选项卡的中心位置,允许您轻松地找到正在发生的有趣的对话并加入。

我们已经看到许多用户(在测试版中)利用这个功能进行了有意义的讨论,我们计划让它变得更好,在未来提供更多的功能,并能够对更多的东西(表格单元格、图表等)进行评论。

在DagsHub上发表任何评论

以正确的方式构建环境

通过讨论,注释会被归于创建它们的版本,因此您还可以看到讨论和项目更改之间的关系。标记合作者,从讨论中创建一个问题,或附加一个图像——这就像点击一样简单。

由于数据项目的所有核心组件都连接到DagsHub,您可以将整个项目上下文放在一个地方,轻松地构建更快的交接和更好的决策所需的知识。

DagsHub的下一步计划是什么

DagsHub 2.0是数据科学协作的一个量子飞跃。但我们不想止步于此。

为了使闭合循环更加容易,我们将集成一些工具,这些工具可以使用通用格式和开源工具轻松地部署模型、监视和收集具有挑战性的数据样本,并将它们添加到数据集中。雷竞技技官网下载

我们将在现有的集成上加倍努力,使使用我们已经集成的工具和平台变得更容易——以GitHub为先导。我们将添加对其他数据类型的支持,因为我们认为数据团队工作流应该与数据类型无关。无论您是在处理表格数据、文本还是医学成像,我们相信您都值得获得一流的协作体验。

一如既往,我们希望得到您的反馈。欢迎通过我们的不和通道在那里,我们的团队正等着回答你的问题,以任何方式提供帮助,或者只是谈论数据、机器学习和宇宙的秘密。

标签

院长Pleban

DAGsHub联合创始人兼首席执行官。构建数据科学协作之家。对机器学习、物理和哲学感兴趣。加入https://DAGsHub.com

太棒了!您已经成功订阅。
太棒了!接下来,完成签出以获得完全访问权限。
欢迎回来!您已经成功登录。
成功!您的帐户已完全激活,您现在可以访问所有内容。