跳到主要内容

对象存储上传

更新时间:2025-07-23 18:30:25

对象存储是云计算领域中最常用的存储方式之一,可以帮助企业和个人高效地管理和分发大量数据。在使弹性容器集群的过程中,也经常会用到对象存储来做文件中转、保存的需求。这里我们使用对象存储作为中转站,上传我们的数据集。

前提条件

  • 您已经获取LLama Factory Online账户和密码,如果需要帮助或尚未注册,可参考注册账户完成注册。
  • 当前账号的余额充裕,可满足模型微调服务的需要。点击可了解最新的活动费用信息,或前往充值,如需了解更多请联系我们

操作步骤

1. 启动CPU实例

  1. 登录LaMA-Factory Online账号进入控制台,点击“开始微调”,启动实例。

  2. 根据需求,选择相应的配置资源规格和卡数,点击启动。 数据处理

信息

Rclone 是一个强大的命令行程序,用于管理云存储。它可以同步、传输、缓存和管理文件,支持多种云存储服务。本示例中,我们将使用Rclone来管理对象存储。

2.下载和安装

1. 手动安装 Rclone

#下载并安装 Rclone
curl https://rclone.org/install.sh | sudo bash

#验证
rclone --version

2. 使用包管理器安装

2.1 使用 apt(Debian/Ubuntu)
# 更新包列表
sudo apt update

# 安装 Rclone
sudo apt install rclone

# 验证安装
rclone --version
2.2 使用 yum(CentOS/RHEL)
# 安装 EPEL 仓库(如果尚未安装)
sudo yum install epel-release
#安装 Rclone
sudo yum install rclone
#验证安装
rclone --version
2.3 使用 dnf(Fedora)
# 安装 Rclone
sudo dnf install rclone
# 验证安装
rclone --version

3. 配置Rclone

可以使用命令行方式进行配置,也可以通过编写配置文件的方式进行配置(推荐使用配置文件)。

以 linux 系统为例,编写配置文件 /root/.config/rclone/rclone.conf,文件内容如下: 其中: access_key_id 和 secret_access_key 在对象存储开通通知短信中 endpoint: 在网站-资源中心-存储管理-对象存储-访问详情页

[s3_store]     #自定义的名称
type = s3
provider = Ceph
access_key_id = ******* #联系运营获取access_key_id
secret_access_key = ******* #联系运营获取secret_access_key
endpoint = https://s3.hd-02.alayanew.com:8082 #联系运营获取
acl = public-read-write
no_check_bucket = true

注意:编写配置文件时,替换以下信息:

变量名说明来源示例
s3_store自定义的名称,可修改自定义s3_store
access_key_idaccess_key_id联系运营获取Asjnf****233s
secret_access_keysecret_access_key联系运营获取sder*******nfksu9j5lw
endpoint访问地址联系运营获取http://s3.hd-02.alayanew.com:8082
提示

对于上传文件使用的对象存储,我们使用默认的"lfonline"存储桶,我们不支持创建和删除存储桶。

4. 上传本地文件到对象存储

首先按照 配置 配置rclone部分的提示,在本地计算机内配置好对象存储的基本信息。

  • 列出对象存储 s3_storelfonline 存储桶里的文件:
rclone lsd s3_store:/lfonline
  • 上传本地 lerobot/pusht 数据集到对象存储
rclone copy ./lerobot/pusht/  s3_store:/lfonline/lerobot/pusht/

image-20250706150748329

image-20250706175108611

5. 下载数据集到实例

在我们的实例中,已经默认使用Rclone配置好了对象存储的信息,您可以直接使用。

(1) 在jupyter中打开一个终端

image-20250706175305460

image-20250706175337861

(2) 列出对象存储中的文件

rclone lsd s3_store:/lfonline

image-20250706175511271

(3) 下载 lerobot/pusht 数据集到工作空间

rclone copy s3_store:/lfonline/lerobot/pusht/ /workspace/llamafactory/data/lerobot/pusht/  

image-20250706175615662

6. 配置数据集信息

参考配置数据集进行配置。

接下来就能使用上传的数据集了。

注意事项

  • 安全:妥善保管 Access Key IDSecret Access Key,避免泄露。
  • 性能:对于大规模数据操作,建议在网络条件良好的环境下使用。
  • 合作:对象存储为公共存储,请再上传完数据集之后及时删除对象存储中的副本文件,以免其他用户无法正常使用。