对象存储上传
对象存储是云计算领域中最常用的存储方式之一,可以帮助企业和个人高效地管理和分发大量数据。在使弹性容器集群的过程中,也经常会用到对象存储来做文件中转、保存的需求。
这里我们可以使用对象存储作为中转站,来上传我们的数据集。
什么是Rclone
Rclone
是一个强大的命令行程序,用于管理云存储。它可以同步、传输、缓存和管理文件,支持多种云存储服务。示例中我们使用Rclone
来管理对象存储。
操作步骤
下载和安装
- Linux
- Windows
- macOS
1. 手动安装 Rclone
#下载并安装 Rclone
curl https://rclone.org/install.sh | sudo bash
#验证
rclone --version
2. 使用包管理器安装
2.1 使用 apt(Debian/Ubuntu)
# 更新包列表
sudo apt update
# 安装 Rclone
sudo apt install rclone
# 验证安装
rclone --version
2.2 使用 yum(CentOS/RHEL)
# 安装 EPEL 仓库(如果尚未安装)
sudo yum install epel-release
#安装 Rclone
sudo yum install rclone
#验证安装
rclone --version
2.3 使用 dnf(Fedora)
# 安装 Rclone
sudo dnf install rclone
# 验证安装
rclone --version
-
下载安装包:
- 访问 Rclone 官方网站 下载最新版本的安装包。
- 下载完成后,双击安装包进行安装。
-
验证安装:
- 打开命令提示符,输入以下命令:
rclone --version
使用 Homebrew 安装:
# 安装
brew install rclone
# 验证安装
rclone --version
配置
可以使用命令行方式进行配置,也可以通过编写配置文件的方式进行配置(推荐使用配置文件)。
- 配置文件
- config命令
以 linux 系统为例,编写配置文件 /root/.config/rclone/rclone.conf,文件内容如下: 其中: access_key_id 和 secret_access_key 在对象存储开通通知短信中 endpoint: 在网站-资源中心-存储管理-对象存储-访问详情页
[store] #自定义的名称
type = s3
provider = Ceph
access_key_id = ******* #联系运营获取access_key_id
secret_access_key = ******* #联系运营获取secret_access_key
endpoint = https://s3.hd-02.alayanew.com:8082 #联系运营获取
acl = public-read-write
no_check_bucket = true
注意:编写配置文件时,替换以下信息:
变量名 | 说明 | 来源 | 示例 |
---|---|---|---|
store | 自定义的名称,可修改 | 自定义 | s3_store |
access_key_id | access_key_id | 联系运营获取 | Asjnf****233s |
secret_access_key | secret_access_key | 联系运营获取 | sder*******nfksu9j5lw |
endpoint | 访问地址 | 联系运营获取 | https://s3.hd-02.alayanew.com:8082 |
运行配置向导:
# 运行配置向导
rclone config
按照提示进行配置:
- 选择
n
创建新的远程存储配置。 - 输入远程存储的名称,例如 s3_store。
- 选择云存储服务,例如 "s3"。
- 按照提示进行身份验证。
- 完成配置后,输入
q
退出配置向导。
上传本地文件到对象存储
首先按照 配置 部分的提示,在本地计算机内配置好对象存储的基本信息。
列出对象存储 store 中所有lfolmzq存储桶里的文件:
rclone lsd store:/lfolmzq
上传本地 lerobot/pusht 数据集到对象存储
rclone copy ./lerobot/pusht/ store:/lfolmzq/lerobot/pusht/
下载数据集到实例
在jupyter中打开一个终端
列出对象存储中的文件
rclone lsd store:/lfolmzq
下载 lerobot/pusht 数据集到工作空间
rclone copy store:/lfolmzq/lerobot/pusht/ /workspace/llamafactory/data/lerobot/pusht/
配置数据集信息
参考***来配置数据集信息,接下来就能使用了。
注意事项
- 安全:妥善保管 Access Key ID 和 Secret Access Key,避免泄露。
- 性能:对于大规模数据操作,建议在网络条件良好的环境下使用。
- 合作:对象存储为大家公用,请再上传完数据集之后及时删除对象存储中的副本文件,以免其他用户无法正常使用。