跳到主要内容

对象存储上传

对象存储是云计算领域中最常用的存储方式之一,可以帮助企业和个人高效地管理和分发大量数据。在使弹性容器集群的过程中,也经常会用到对象存储来做文件中转、保存的需求。

这里我们可以使用对象存储作为中转站,来上传我们的数据集。

什么是Rclone

Rclone 是一个强大的命令行程序,用于管理云存储。它可以同步、传输、缓存和管理文件,支持多种云存储服务。示例中我们使用Rclone来管理对象存储。

操作步骤

下载和安装

1. 手动安装 Rclone

#下载并安装 Rclone
curl https://rclone.org/install.sh | sudo bash

#验证
rclone --version

2. 使用包管理器安装

2.1 使用 apt(Debian/Ubuntu)
# 更新包列表
sudo apt update

# 安装 Rclone
sudo apt install rclone

# 验证安装
rclone --version
2.2 使用 yum(CentOS/RHEL)
# 安装 EPEL 仓库(如果尚未安装)
sudo yum install epel-release
#安装 Rclone
sudo yum install rclone
#验证安装
rclone --version
2.3 使用 dnf(Fedora)
# 安装 Rclone
sudo dnf install rclone
# 验证安装
rclone --version

配置

可以使用命令行方式进行配置,也可以通过编写配置文件的方式进行配置(推荐使用配置文件)。

以 linux 系统为例,编写配置文件 /root/.config/rclone/rclone.conf,文件内容如下: 其中: access_key_id 和 secret_access_key 在对象存储开通通知短信中 endpoint: 在网站-资源中心-存储管理-对象存储-访问详情页

[store]     #自定义的名称
type = s3
provider = Ceph
access_key_id = ******* #联系运营获取access_key_id
secret_access_key = ******* #联系运营获取secret_access_key
endpoint = https://s3.hd-02.alayanew.com:8082 #联系运营获取
acl = public-read-write
no_check_bucket = true

注意:编写配置文件时,替换以下信息:

变量名说明来源示例
store自定义的名称,可修改自定义s3_store
access_key_idaccess_key_id联系运营获取Asjnf****233s
secret_access_keysecret_access_key联系运营获取sder*******nfksu9j5lw
endpoint访问地址联系运营获取https://s3.hd-02.alayanew.com:8082

上传本地文件到对象存储

首先按照 配置 部分的提示,在本地计算机内配置好对象存储的基本信息。

列出对象存储 store 中所有lfolmzq存储桶里的文件:

rclone lsd store:/lfolmzq

上传本地 lerobot/pusht 数据集到对象存储

rclone copy ./lerobot/pusht/  store:/lfolmzq/lerobot/pusht/

image-20250704173845485

下载数据集到实例

在jupyter中打开一个终端

列出对象存储中的文件

rclone lsd store:/lfolmzq

下载 lerobot/pusht 数据集到工作空间

rclone copy store:/lfolmzq/lerobot/pusht/ /workspace/llamafactory/data/lerobot/pusht/  

配置数据集信息

参考***来配置数据集信息,接下来就能使用了。

注意事项

  • 安全:妥善保管 Access Key IDSecret Access Key,避免泄露。
  • 性能:对于大规模数据操作,建议在网络条件良好的环境下使用。
  • 合作:对象存储为大家公用,请再上传完数据集之后及时删除对象存储中的副本文件,以免其他用户无法正常使用。