模型对话
在“模型对话”部分,您可以与微调后的模型进行对话。
前提条件
- 您已经获取LLama Factory Online账户和密码,如果需要帮助或尚未注册,可参考注册账户完成注册。
- 当前账号的余额充裕,可满足模型微调服务的需要。点击可了解最新的活动及费用信息,或前往充值,如需了解更多请联系我们。
- 您已经有微调后的模型,如果需要帮助,可参考模型微调。
概览
模型对话界面由三部分组成。
① 在第一部分,您可以选择微调模型后的模型,与该模型的进行对话。
② 在第二部分,您可以更改模型对话的参数配置,如最大输出长度\是否深度思考等。
③ 在第三部分,您可以与该模型进行对话,清除对话历史等。支持上传不超过10M的图像文件。
操作步骤
-
登录LLaMA-Factory Online账号,进入控制台,点击左侧导航栏处的“模型对话”,进入模型对话界面。
-
选择进行对话的模型,选中微调模型时会显示基座模型,如下图高亮①所示; 点击 “开始对话”,如下图高亮②所示; 显示资源配置和预估费用,点击 “开始对话” ,如下图高亮③所示。
-
(可选)您也可以在右侧配置参数: Role、Temperature、Top-p和Max Tokens,以及是否开启Deep Thinking模式。
-
创建对话后即可开始聊天。如下图所示。
- 您可点击上传10M以内的图像文件,输入文字并发送以进行对话。
信息对话中状态若10分钟内没有输入输出Token自动停止对话。
-
您可点击对话框右上角
清除对话历史,开始新一轮对话,但当对话停止后,不能清除对话历史。
-
点击右上角 “停止对话”,取消部署,对话状态变为停止。
信息bloomz-3B和GPT2-small模型在进行vllm推理对话的时候,在webUI界面需要添加对应的模型最大长度参数才能正确加载模型进行对话。
bloomz-3B模型支持的最大长度是2048,GPT2-small支持的最大长度是1024,下面已GPT为例进行说明, 有两种添加方式:
第一种:
{"vllm_enforce_eager": true, "vllm_maxlen":1024}
第二种:
{"vllm_enforce_eager": true, "vllm_config":{"max_model_len": 1024}}
详情参考 参数介绍。