自定义模型/数据集问题排查
LLaMA-Factory Online为您提供自定义模型/数据集的功能,您可根据需求做对应的配置。
- 您可在[JupyterLab处理专属数据]的
/workspace
路径下缓存自定义的模型。 - 您可通过文件管理功能模块管理自定义的数据集。用户使用公共数据集或者自定义数据集进行模型微调的操作流程如下所示。
- 模型微调1、模型微调2仅为区分使用不同类型数据集进行的微调,并无其他特殊含义。
- 在完成数据集检测并确认通过后,您即可使用自定义数据集进行模型微调2。
-
模型微调1:用户在进行模型微调时,若选择使用公共数据,无需自行准备或上传数据集,可通过“训练数据-公共数据”选项选用系统内置的公共数据集直接启动微调,适用于无需特定领域数据的通用场景。
-
模型微调2:用户在进行模型微调时,若选择使用自定义数据,需自备符合格式的数据集,并通过SFTP上传或上传至
/datasets
目录,系统检测通过后您即可使用自定义数据集进启动微调,适用于有特定数据和定制化需求的场景。
一:如何导入自定义模型
问题表现
想要缓存公共模型列表中不存在的模型。
解决方法
请参考导入自定义模型章节所述完成自定义模型的导入,具体操作详见该链接对应章节。
二:如何上传大体积数据集
问题表现
想要使用自定义数据集进行微调训练,但所需上传的数据集体积过大(1G),无法进行上传。
问题原因
默认上传数据集大小为1G,如果数据集体积过大,上传会失败。网页上传速度较慢,上传大体积数据集耗时较长。
解决办法
请参照SFTP上传下载章节所述完成大文件的传输,具体操作详见该链接对应章节。
三:数据集检测失败原因及解决方案
问题表现
用户在[JupyterLab处理专属数据]的user-data/datasets
目录下上传自定义数据集后,返回至[文件管理]菜单的“数据集”页签,点击“数据集检测”链接,页面提示“数据集检测失败”,例如下图高亮④所示。
问题原因
目前,LLaMA Factory Online平台仅支持Alpaca和ShareGPT两种数据格式。若上传的数据不符合其中任一格式,系统将自动弹出提示“数据集检测失败”,以帮助用户及时识别数据集可能存在的格式问题。
解决办法
-
您可以编写代码或其它辅助工具将数据集转换为Alpaca或ShareGPT格式。以未通过数据集检测的一组数据为例,该数据格式混合了数组和纯文本,例如下图所示。
-
将转换后的自定义数据集更新至[JupyterLab处理专属数据]的
user-data/datasets
目录下,处理后的数据集格式符合Alpaca格式,使用instruction
、input
、output
三个字段,例如下图所示。 -
返回至[文件管理]菜单中的“数据集”页签,刷新页面并点击“数据集检测”链接。数据集格式检测提示“符合”,如图中高亮区域④所示。
四:实例模式微调自定义数据集无法使用
问题表现
在上传了符合数据格式要求的自定义数据集后,LLaMA Factory Online WebUI中没有显示出自定义数据集,导致用户无法选择。
问题原因
在LLaMA Factory WebUI界面中,默认加载的是其内置/llamafactory/data
目录下的公共数据集,该目录存放系统已预置的数据集。
解决方法
-
在已登录平台单击[实例空间],打开[JupyterLab处理专属数据]目录,进入
llamafactory/data/
目录,找到“dataset_info.json”文件,右键使用“Editor”打开文件,例如下图所示。 -
参考配置数据集信息,添加数据集的映射脚本如下所示。
-
保存映射脚本,返回[LLaMA-Factory快速微调模型]LLaMA Factory WebUI微调页面即可选择对应数据集,例如下图所示。
五:公共数据集是否可以下载
问题表现
用户想要下载公共数据集到本地。
解决方法
-
在已登录平台单击[资产/公共数据]菜单项,切换至“数据集”列表页面,复制要下载的公共数据集路径,如下图高亮③所示。
-
单击[实例空间],打开[JupyterLab处理专属数据/Terminal]页面,运行如下所示的命令将公共数据集文件拷贝至
/workspace/user-data/datasets
目录,例如下图所示。cp [源路径] [目标路径]
-
返回[资产/文件管理]菜单项,在数据集列表页面找到上步已拷贝的文件,例如下图所示,单击“下载”按钮即可将公共数据集下载到本地,例如下图高亮①所示。您也可以参考SFTP上传下载章节所述完成文件下载。