用于机器学习的模型注册表-在生产中管理模型
回到博客主页

用于机器学习的模型注册表-在生产中管理模型

模型注册 2022年8月7日
机器学习工程师
Em·ell·eee~名词

一种智能生物,利用昂贵的图形处理器和更昂贵的咖啡将新鲜数据制作成模型。

但是一旦他们训练了一个模型,机器学习工程师会对它做什么呢?传真给他们的老板?把它复制到软盘上,在办公室里传阅?把它放在一个网络共享的地方,只写在一个锁着的文件柜的底部,卡在一个废弃的厕所里,门上写着“小心豹子”?也许洒一点MLOps吗?

直接将模型传真到存档?

为了防止MLE的工作被浪费,需要收集和利用这些模型,而不是任其腐烂。但说起来容易做起来难。数据科学团队经常与他们工作的消费者脱节:团队采用他们的模型并从中提取可用价值。即使两者之间有不断的通信,使用新的和更新的模型也涉及大量的开销。

为了跟踪这些不断发展的模型,数据科学团队经常求助于电子表格等工具。然而,外部组织系统就是这样——外部的——很快就会不同步,因此变得无用。此外,这些手动系统不可能跟踪关于模型的每一个元数据,让开发人员手动检查模型,并发现训练时使用的数据和代码。

这就是模型注册中心的用武之地。

什么是模型注册中心?

模型注册

一个促进模型存储、版本控制、跟踪、发现和部署的神奇的地方。

模型注册表取代了以前的临时电子表格和文件共享,为用户提供单一的真实来源所有模型。Data Science团队自动将每个训练过的模型上传到注册中心,消费者可以从注册中心浏览和下载模型。

让我们看一看模型注册表的基本支柱,以及它们解决的问题。

模型注册表工具的基本支柱

模型存储

这部分非常明显。模型注册表的基本要求是允许数据科学家在注册表中存储模型。

注册表可以让数据科学团队与消费者共享他们的模型。”没有DevOps学位-不需要创建和配置共享文件系统或对象存储桶或云凭证。模型注册中心的目标是充当模型生产者和消费者之间的单一存储层。当然,它在幕后使用共享文件系统或对象存储,但这一切都是以“设置并忘记”的方式配置的,除了系统管理员之外,任何人都不会再碰它。

设计良好的注册表支持从各种不同环境上传和下载,便于跨云和内部部署域使用。统一来自这些环境的注册表访问控制允许开发人员和用户简化访问,而不用担心复杂的云IAM身份。对于数据科学团队来说,上传到注册表就像魔术一样!

模型版本控制

模型经常被更改,模型注册中心的一个关键特性是能够保存模型的每个版本。

我们的意思是每一个的版本。

来自软件开发世界的人可能会认为,消费者应该总是使用“最新”模型,以获得数据科学团队最新努力的回报。然而,由于数据科学本质上是由研究和实验驱动的,所以最新的模型不一定是最好的模型,甚至不一定是已经准备好生产的模型。它们可以代表实验技术、被推翻的假设、中断的训练运行,或者只是表现较差的模型。

相反,模型注册中心跟踪模型的哪个版本将在哪个位置使用。模型被标记为用于实验、测试或生产,允许自动化流程使用正确的版本而不会混淆。这使得数据科学团队可以上传和评估无限数量的模型,而不会影响QA和生产环境。

然后,数据科学团队可以在执行之后,从实验到测试,再到生产,推动模型版本集成而且数据测试.这使得数据科学团队和他们的消费者之间可以实现无缝的持续集成。

注册中心中模型的生命周期

模型跟踪

无论一个模型是在生产中使用,还是只是在实验中使用,能够将它追溯到用于训练它的数据、依赖项、代码和管道是很重要的。

模型注册中心将此元数据直接存储在模型旁边,即使在部署时也可以轻松地进行检查。这使得数据科学团队可以快速回答查询

  • "生产模型是否使用Tensorflow还有安全漏洞?”
  • “新的数据集是最新模型性能提高的原因吗?”
  • “我们是在训练测试模型之前还是之后修正了训练错误?”

使用设计良好的模型注册表,这些元数据直接来自源代码,不会因为数据科学家忘记在某个地方更新配置而导致错误。

模型发现

一个模型如果不被使用又有什么用呢?

模型注册中心为业务提供了一个接口,以发现数据科学团队所产生的价值。除了它们的编程接口之外,注册中心还为非技术用户提供了一个用于浏览模型的UI。

这是从企业的数据和数据科学部门提取价值的关键。例如,如果业务团队对预测用户流失感兴趣,他们可能会在注册表中搜索一个模型——可能会找到一个随着时间的推移预测用户价值的模型,他们可以根据自己的目的进行调整。

如果没有一个集中的、可搜索的注册表,数据科学团队生成的模型只能用于一个目的,或者更糟糕的是,根本不会被业务使用!

模型部署

通过在一个中心位置收集统一格式的模型,模型注册中心非常适合帮助将这些模型部署到生产环境中。尽管处理模型部署并不需要模型注册中心,但这些注册中心具有明显的优势。

理想情况下,模型注册中心应该支持内置的零配置部署。它应该允许您为数据科学团队上传的任何模型快速启动推理API,而无需编写一行代码。

此外,它还应该允许您通过API连接自己的外部部署工具,这样您就可以通过注册中心管理模型的部署生命周期。

DagsHub如何提供帮助?

我们已经看到了现代模型注册表的支柱——在评估可能的解决方案时,您应该期望得到什么,以及为什么通常需要它们。

请继续关注第二部分,了解DagsHub的模型注册表功能,并了解利用它们是多么容易!

标签

Arjun Vikram

雷竞技技官网下载开源数据科学家@ DagsHub

太棒了!您已成功订阅。
太棒了!接下来,完成签出以获得完全访问。
欢迎回来!您已经成功登录。
成功!您的帐户已完全激活,您现在可以访问所有内容。