连接s3兼容存储到DagsHub:管理数据和代码在同一个地方
在数据方面,Dagshub非常强调版本控制和协作,在底层使用DVC进行版本控制。然而,我们承认并非所有用户都依赖DVC进行数据管理,这限制了他们充分利用DagsHub的能力。
为了解决这个问题,我们扩展了我们的支持,允许用户将他们的S3存储桶和其他兼容S3的存储连接到他们的DagsHub存储库,并查看其内容,即使没有DVC版本。
现在,用户无需离开DagsHub平台就可以毫不费力地访问存储在其连接的存储桶中的数据并与之交互。无论他们的数据是否使用DVC进行版本控制,用户仍然可以从单一平台管理数据和代码的便利性中受益,同时如果他们选择使用DVC,他们还可以保留使用DVC对数据更改进行版本控制的能力。
在这篇博文中,我们将向您展示如何将S3存储桶连接到DagsHub并查看其内容。
什么是兼容s3的存储?
S3兼容存储是指支持与Amazon Simple storage Service (S3)相同API的云存储系统。S3是Amazon Web Services (AWS)提供的一种广泛使用的对象存储服务,它允许用户通过internet存储和检索数据。对于兼容S3的存储,备选云提供商提供了与S3 API兼容的存储解决方案,允许用户使用与Amazon S3相同的工具和API调用。这种兼容性有助于在不同存储提供商之间轻松迁移,并使用户能够利用现有的S3生态系统。
在s3兼容下可以存储任何类型的对象,如:图像、视频、音频文件、CSV文件、JSON文件等。它们被广泛用于存储大量数据,因为它们提供高可用性、持久性、可伸缩性和安全性。它们还支持各种特性,如加密、生命周期管理、版本控制和访问控制。
如何将S3桶连接到DagsHub存储库?
将S3存储桶或任何其他与S3兼容的存储连接到您需要遵循的DagsHub存储库。
- DagsHub账户
- DagsHub存储库
- 包含某些数据文件的S3桶(或任何其他公共桶)
- 访问桶的凭据
一旦你准备好了这些,按照以下几个简单的步骤将你的存储连接到DagsHub:
- 转到您的DagsHub存储库页面
- 点击远程
- 点击数据选项卡
- 单击相关的存储提供程序
- 点击添加一个键按钮并填写桶的URL(例如,s3://my-bucket)及其区域
- 输入访问桶的凭据(例如,AWS访问密钥ID和AWS秘密访问密钥)

就是这样!您已经成功地将S3存储桶连接到DagsHub存储库。
如何访问和查看已连接的S3桶?
一旦将S3存储桶(或任何其他公共存储桶)连接到DagsHub存储库,
- 回到您的DagsHub存储库页面
- 点击那些命名的文件夹s3: / / < bucket_name >
- 您将看到一个文件浏览器,其中显示存储在该存储桶中的所有对象。

如何流文件托管在S3桶
直接查阅资料支持连接到DagsHub存储库的S3桶中的流文件。这意味着你可以流式传输数据集的子集无需将其完全下载到本地存储。
看看这个例子:
从dagshub。stream import DagsHubFilesystem fs = DagsHubFilesystem(".", repo_url="//www.kkolawyers.com//< rename >") fs.listdir("s3://")