数据目录
数据目录包含两种模式下的目录: “实例模式” 和 “任务模式” 。实例模式的目录包括:envs、huggingface、llamafactory和tmp。可通过启动CPU实例进行查看。任务模式的目录是user-data,用于存储用户在任务模式下上传或者产生的数据,可通过平台的文件管理查看,也可通过启动CPU实例进行查看。
目录名称 | 说明 |
---|---|
envs | 当前conda环境中,用户自定义安装依赖包的目录。 |
huggingface | Hugging Face 工具自动创建的本地缓存目录,可以用来存放下载的预训练模型文件、数据集缓存。 |
llamafactory | llama factory操作的相关目录:包含数据集,data目录、服务启动日志、logs日志、output训练保存目录、config配置目录。 |
tmp | tmp临时文件,用于存储临时缓存等。 |
user-data | 此目录是用户在通过任务模式下上传或者产生的数据;通过SFTP上传/下载数据;执行训练过程中产生的数据或者配置存储在models下的output目录中。 |
user-data目录内容
文件名称 | 说明 |
---|---|
datasets | 用户通过“文件管理”自己上传的数据集目录。 |
models | 用户通过“文件管理”自己上传的模型目录。 该目录下的output用于存储执行训练过程中产生的数据或者配置。 |
others | 用户通过“文件管理”自己上传的其他文件目录 |
公共数据集和模型
平台提供的公共数据集存放在 /shared-only/datasets/
目录下;
公共模型存放在/shared-only/models/
下。此目录为只读目录,用户不可操作。
自定义数据集
用户自定义数据集目录为 /workspace/llamafactory/data
或/user-data/datasets
,若需要自定义数据集,请将文件上传到此目录进行处理。上传方法请参考JupyterLab上传和SFTP上传。
dataset_info.json
包含了所有经过预处理的 本地数据集 以及 在线数据集。如果您希望使用自定义数据集,请 务必 在 /workspace/llamafactory/data/dataset_info.json
文件中添加对数据集及其内容的定义。
数据集定义请参考文档数据集类型。
自定义模型
用户自定义模型目录为 /workspace/huggingface/hub
或user-data/models
,若需要使用自定义模型,请到此目录处操作。自定义模型传输方法请参考使用Hugging Face工具下载模型和使用SFTP上传模型。