dataset
dataset_info.json 包含所有可用的数据集。如果您使用的是自定义数据集, 请确保在 dataset_info.json 中添加数据集描述 ,并在训练前指定 dataset: dataset_name 以使用它。
dataset_info.json 文件应放在 dataset_dir 目录中。您可以更改 dataset_dir 以使用其他目录。默认值为 ./data。
目前我们支持 alpaca 和 sharegpt 格式的数据集。允许的文件类型包括 json、jsonl、csv、parquet、arrow。