跳到主要内容

数据集配置

更新时间:2025-07-23 18:30:25

用户的自定义数据集存放在/workspace/llamafactory/data目录或/user-data/datasets目录下。

/workspace/llamafactory/data中的dataset_info.json 包含了所有经过预处理的 本地数据集 以及 在线数据集。如果您希望使用自定义数据集,请 务必/workspace/llamafactory/data/dataset_info.json 文件中添加对数据集及其内容的定义。

这里我们以数据转换处理的数据集为例,来展示如何配置dataset_info。

配置dataset_info

实例模式

登录LLaMA-Factory Online后进入实例空间,启动CPU实例。在JupyterLab中,打开/workspace/llamafactory/data/dataset_info.json文件,加入如下内容,即可完成配置。

"CoVLA_zh": {
"file_name": "./CoVLA/CoVLA_llamafactory_zh_split.json",
"formatting": "sharegpt",
"columns": {
"messages": "conversations",
"images": "images"
}
},

image-20250706175834206

任务模式

登录LLaMA-Factory Online后进入“文件管理”,通过SFTP上传CoVLA_llamafactory_zh_split.json数据集,数据集格式要求参考数据集类型,平台会自动对数据集进行检测,检测通过后,数据集的信息会被自动加入dataset_info.json文件中,完成数据集配置。

数据集检测

提示

如果您在文件管理处删除了通过检测的数据集,/workspace/llamafactory/data/dataset_info.json文件中的数据集的信息也会同步删除。

验证数据配置

启动llamafactory webui界面

  • 查看数据集选择列表

image-20250706175937849

  • 预览数据集

image-20250706180001258