模型对话

更新时间：2025-07-21 18:30:25

在“模型对话”部分，您可以与微调后的模型进行对话。

前提条件

模型对话界面由三部分组成。

① 在第一部分，您可以选择微调模型后的模型，与该模型的进行对话。

② 在第二部分，您可以更改模型对话的参数配置，如最大输出长度\是否深度思考等。

③ 在第三部分，您可以与该模型进行对话，清除对话历史等。支持上传不超过10M的图像文件。

登录LLaMA-Factory Online账号，进入控制台，点击左侧导航栏处的“模型对话”,进入模型对话界面。
选择进行对话的模型，选中微调模型时会显示基座模型，如下图高亮①所示; 点击 “开始对话”，如下图高亮②所示; 显示资源配置和预估费用，点击 “开始对话” ,如下图高亮③所示。
(可选)您也可以在右侧配置参数: Role、Temperature、Top-p和Max Tokens，以及是否开启Deep Thinking模式。
创建对话后即可开始聊天。如下图所示。
- 您可点击上传10M以内的图像文件，输入文字并发送以进行对话。
信息
对话中状态若10分钟内没有输入输出Token自动停止对话。
- 您可点击对话框右上角清除对话历史，开始新一轮对话，但当对话停止后，不能清除对话历史。
- 点击右上角 “停止对话”，取消部署，对话状态变为停止。
信息
bloomz-3B和GPT2-small模型在进行vllm推理对话的时候，在webUI界面需要添加对应的模型最大长度参数才能正确加载模型进行对话。
bloomz-3B模型支持的最大长度是2048，GPT2-small支持的最大长度是1024，下面已GPT为例进行说明，有两种添加方式：
第一种：{"vllm_enforce_eager": true, "vllm_maxlen":1024}
第二种：{"vllm_enforce_eager": true, "vllm_config":{"max_model_len": 1024}}
详情参考 参数介绍。