数据集配置
用户的自定义数据集存放在/workspace/llamafactory/data
目录或/user-data/datasets
目录下。
/workspace/llamafactory/data
中的dataset_info.json
包含了所有经过预处理的 本地数据集 以及 在线数据集。如果您希望使用自定义数据集,请 务必 在 /workspace/llamafactory/data/dataset_info.json
文件中添加对数据集及其内容的定义。
这里我们以数据转换处理的数据集为例,来展示如何配置dataset_info。
配置dataset_info
实例模式
登录LLaMA-Factory Online后进入实例空间,启动CPU实例。在JupyterLab中,打开/workspace/llamafactory/data/dataset_info.json
文件,加入如下内容,即可完成配置。
"CoVLA_zh": {
"file_name": "./CoVLA/CoVLA_llamafactory_zh_split.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"images": "images"
}
},
任务模式
登录LLaMA-Factory Online后进入“文件管理”,通过SFTP上传CoVLA_llamafactory_zh_split.json
数据集,数据集格式要求参考数据集类型,平台会自动对数据集进行检测,检测通过后,数据集的信息会被自动加入dataset_info.json文件中,完成数据集配置。
提示
如果您在文件管理处删除了通过检测的数据集,/workspace/llamafactory/data/dataset_info.json
文件中的数据集的信息也会同步删除。
验证数据配置
启动llamafactory webui界面
- 查看数据集选择列表
- 预览数据集