跳到主要内容

数据目录

更新时间:2025-08-15 10:55:25

数据目录包含两种模式下的目录: “实例模式”“任务模式” 。实例模式的目录包括:envs、huggingface、llamafactory和tmp。可通过启动CPU实例进行查看。任务模式的目录是user-data,用于存储用户在任务模式下上传或者产生的数据,可通过平台的文件管理查看,也可通过启动CPU实例进行查看。

文件目录

目录名称说明
envs当前conda环境中,用户自定义安装依赖包的目录。
huggingfaceHugging Face 工具自动创建的本地缓存目录,可以用来存放下载的预训练模型文件、数据集缓存。
llamafactoryllama factory操作的相关目录:包含数据集,data目录、服务启动日志、logs日志、output训练保存目录、config配置目录。
tmptmp临时文件,用于存储临时缓存等。
user-data此目录是用户在通过任务模式下上传或者产生的数据;通过SFTP上传/下载数据;执行训练过程中产生的数据或者配置存储在models下的output目录中。

user-data目录内容

文件名称说明
datasets用户通过“文件管理”自己上传的数据集目录。
models用户通过“文件管理”自己上传的模型目录。
该目录下的output用于存储执行训练过程中产生的数据或者配置。
others用户通过“文件管理”自己上传的其他文件目录

公共数据集和模型

平台提供的公共数据集存放在 /shared-only/datasets/ 目录下;
公共模型存放在/shared-only/models/下。此目录为只读目录,用户不可操作。

自定义数据集

用户自定义数据集目录为 /workspace/llamafactory/data/user-data/datasets,若需要自定义数据集,请将文件上传到此目录进行处理。上传方法请参考JupyterLab上传SFTP上传

dataset_info.json 包含了所有经过预处理的 本地数据集 以及 在线数据集。如果您希望使用自定义数据集,请 务必/workspace/llamafactory/data/dataset_info.json 文件中添加对数据集及其内容的定义。

数据集定义请参考文档数据集类型

自定义模型

用户自定义模型目录为 /workspace/huggingface/hubuser-data/models,若需要使用自定义模型,请到此目录处操作。自定义模型传输方法请参考使用Hugging Face工具下载模型使用SFTP上传模型