跳到主要内容

查看模型镜像列表

更新时间:2025-11-03 15:50:25

LLaMA-Factory镜像列表构建了一个完整的容器化生态体系,通过标准化封装不同版本的PyTorch、Transformers、CUDA和vLLM等深度学习组件,为大语言模型的训练、微调和部署提供开箱即用的解决方案。它采用矩阵化版本管理策略,既保障了环境一致性和实验可复现性,又覆盖了从最新硬件到遗留系统的广泛兼容性需求,让用户能够根据具体硬件配置和项目要求快速选择合适的环境组合,从而将重心完全聚焦于模型开发本身而非繁琐的环境配置工作。

前提条件

  • 用户已注册大模型实验室,如果需要帮助或尚未注册,可参考账户注册/登录完成注册/登录。
  • 当前账号的余额充裕,可满足实例运行的需要。点击可了解费用信息
信息

镜像Tag命名规则为:lf{llamafactory版本}-tf{transformers版本}-torch{torch版本}-cu{cuda版本}-{内部版本号}

LLaMA-Factory 0.9.4 (当前主分支)

0.9.4(Transformers 4.57.1)主版本 (最新组件)

TransformersPyTorchCUDAvLLMHuggingFace Hub镜像Tag状态说明
4.57.12.8.012.60.10.20.35.3lf0.9.4-tf4.57.1-torch2.8.0-cu12.6-1.1🟢 主版本*容器默认启动使用的版本
4.57.12.8.012.80.10.20.35.3lf0.9.4-tf4.57.1-torch2.8.0-cu12.8-1.1🟢 主版本
4.57.12.8.011.80.10.20.35.3lf0.9.4-tf4.57.1-torch2.8.0-cu11.8-1.1🟢 主版本
信息

LLaMA-Factory 0.9.4分支已支持Qwen3-VL全系列模型(4B7B30B-A3B235B-A22B)的SFTDPO训练,EasyR1框架也同步支持了所有Qwen3-VL模型的GRPODAPO强化学习, 经过测试Qwen3-VL-30B-A3B-Thinking模型在Geometry3k数据集上,经过RL(​Reinforcement Learning,强化学习)训练可提升25%的准确率。

0.9.4 (Transformers 4.57.1)模型列表

模型详情
模型名称系列分类模型类型参数量特点说明
gpt-oss-20bGPT-OSS系列基座模型20B开源GPT模型
gpt-oss-120bGPT-OSS系列基座模型120B超大规模开源GPT
aya-23-8BAya系列多语言模型8B多语言理解与生成
aya-23-35BAya系列多语言模型35B大规模多语言模型
Baichuan-7BBaichuan系列基座模型7B中英双语基座模型
Baichuan-13B-BaseBaichuan系列基座模型13B中英双语基座模型
Baichuan-13B-ChatBaichuan系列对话模型13B中英双语对话模型
Baichuan2-7B-BaseBaichuan2系列基座模型7B第二代中英双语基座
Baichuan2-13B-BaseBaichuan2系列基座模型13B第二代中英双语基座
Baichuan2-7B-ChatBaichuan2系列对话模型7B第二代对话模型
Baichuan2-13B-ChatBaichuan2系列对话模型13B第二代对话模型
bloom-560mBLOOM系列基座模型560M多语言基座小模型
bloom-3bBLOOM系列基座模型3B多语言基座模型
bloom-7b1BLOOM系列基座模型7B多语言基座模型
bloomz-560mBLOOMZ系列指令调优560M指令调优小模型
bloomz-3bBLOOMZ系列指令调优3B指令调优模型
bloomz-7b1-mtBLOOMZ系列指令调优7B多任务指令调优
BlueLM-7B-BaseBlueLM系列基座模型7B中英双语基座
BlueLM-7B-ChatBlueLM系列对话模型7B中英双语对话
Breeze-7B-Base-v1_0Breeze系列基座模型7B中文轻量基座
Breeze-7B-Instruct-v1_0Breeze系列指令模型7B中文指令模型
chatglm2-6bChatGLM系列对话模型6B第二代对话模型
chatglm3-6b-baseChatGLM系列基座模型6B第三代基座模型
chatglm3-6bChatGLM系列对话模型6B第三代对话模型
chinese-llama-2-1.3bChinese-LLaMA基座模型1.3B中文优化小模型
chinese-llama-2-7bChinese-LLaMA基座模型7B中文优化模型
chinese-llama-2-13bChinese-LLaMA基座模型13B中文优化大模型
chinese-alpaca-2-1.3bChinese-Alpaca对话模型1.3B中文对话小模型
chinese-alpaca-2-7bChinese-Alpaca对话模型7B中文对话模型
chinese-alpaca-2-13bChinese-Alpaca对话模型13B中文对话大模型
codegeex4-all-9bCodeGeeX系列代码模型9B多语言代码生成
codegemma-7bCodeGemma系列代码模型7B代码生成基座
codegemma-7b-itCodeGemma系列代码模型7B代码生成指令版
codegemma-1.1-2bCodeGemma系列代码模型2B轻量代码模型
codegemma-1.1-7b-itCodeGemma系列代码模型7B代码指令模型
Codestral-22B-v0.1Codestral系列代码模型22B大型代码模型
c4ai-command-r-v01Command系列RAG模型-检索增强生成
c4ai-command-r-plusCommand系列RAG模型-增强版RAG模型
c4ai-command-r-v01-4bitCommand系列量化模型-4bit量化版本
c4ai-command-r-plus-4bitCommand系列量化模型-增强版4bit量化
dbrx-baseDBRX系列基座模型-MoE架构基座
dbrx-instructDBRX系列指令模型-MoE指令模型
deepseek-llm-7b-baseDeepSeek-LLM基座模型7B通用基座模型
deepseek-llm-67b-baseDeepSeek-LLM基座模型67B大规模基座模型
deepseek-llm-7b-chatDeepSeek-LLM对话模型7B通用对话模型
deepseek-llm-67b-chatDeepSeek-LLM对话模型67B大规模对话模型
deepseek-math-7b-baseDeepSeek-Math数学模型7B数学基座模型
deepseek-math-7b-instructDeepSeek-Math数学模型7B数学指令模型
deepseek-moe-16b-baseDeepSeek-MoE基座模型16BMoE架构基座
deepseek-moe-16b-chatDeepSeek-MoE对话模型16BMoE对话模型
DeepSeek-V2-LiteDeepSeek-V2轻量模型-V2轻量版本
DeepSeek-V2DeepSeek-V2基座模型-第二代基座
DeepSeek-V2-Lite-ChatDeepSeek-V2对话模型-V2轻量对话
DeepSeek-V2-ChatDeepSeek-V2对话模型-第二代对话
DeepSeek-Coder-V2-Lite-BaseDeepSeek-Coder代码模型-代码轻量基座
DeepSeek-Coder-V2-BaseDeepSeek-Coder代码模型-代码基座模型
DeepSeek-Coder-V2-Lite-InstructDeepSeek-Coder代码模型-代码轻量指令
DeepSeek-Coder-V2-InstructDeepSeek-Coder代码模型-代码指令模型
deepseek-coder-6.7b-baseDeepSeek-Coder代码模型6.7B代码基座模型
deepseek-coder-7b-base-v1.5DeepSeek-Coder代码模型7B代码基座v1.5
deepseek-coder-33b-baseDeepSeek-Coder代码模型33B大规模代码基座
deepseek-coder-6.7b-instructDeepSeek-Coder代码模型6.7B代码指令模型
deepseek-coder-7b-instruct-v1.5DeepSeek-Coder代码模型7B代码指令v1.5
deepseek-coder-33b-instructDeepSeek-Coder代码模型33B大规模代码指令
DeepSeek-V2-Chat-0628DeepSeek-V2对话模型-特定版本对话
DeepSeek-V2.5DeepSeek-V2.5基座模型-2.5代基座
DeepSeek-V2.5-1210DeepSeek-V2.5基座模型-特定版本基座
DeepSeek-V3-BaseDeepSeek-V3基座模型-第三代基座
DeepSeek-V3DeepSeek-V3基座模型-第三代模型
DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1推理模型1.5B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-7BDeepSeek-R1推理模型7B蒸馏推理模型
DeepSeek-R1-Distill-Llama-8BDeepSeek-R1推理模型8B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-14BDeepSeek-R1推理模型14B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1推理模型32B蒸馏推理模型
DeepSeek-R1-Distill-Llama-70BDeepSeek-R1推理模型70B蒸馏推理模型
DeepSeek-R1-ZeroDeepSeek-R1推理模型-零样本推理
DeepSeek-R1DeepSeek-R1推理模型-推理模型
EXAONE-3.0-7.8B-InstructEXAONE系列指令模型7.8B多模态指令模型
falcon-7bFalcon系列基座模型7B开源基座模型
falcon-11BFalcon系列基座模型11B中等规模基座
falcon-40bFalcon系列基座模型40B大规模基座模型
falcon-180bFalcon系列基座模型180B超大规模基座
falcon-7b-instructFalcon系列指令模型7B指令调优模型
falcon-40b-instructFalcon系列指令模型40B大规模指令模型
falcon-180b-chatFalcon系列对话模型180B超大规模对话
gemma-2bGemma系列基座模型2B轻量基座模型
gemma-7bGemma系列基座模型7B基座模型
gemma-2b-itGemma系列指令模型2B轻量指令模型
gemma-7b-itGemma系列指令模型7B指令模型
gemma-1.1-2b-itGemma系列指令模型2B1.1版指令模型
gemma-1.1-7b-itGemma系列指令模型7B1.1版指令模型
gemma-2-2bGemma2系列基座模型2B第2代轻量基座
gemma-2-9bGemma2系列基座模型9B第2代基座模型
gemma-2-27bGemma2系列基座模型27B第2代大基座
gemma-2-2b-itGemma2系列指令模型2B第2代轻量指令
gemma-2-9b-itGemma2系列指令模型9B第2代指令模型
gemma-2-27b-itGemma2系列指令模型27B第2代大指令模型
glm-4-9bGLM系列基座模型9B第4代基座模型
glm-4-9b-chatGLM系列对话模型9B第4代对话模型
glm-4-9b-chat-1mGLM系列对话模型9B长上下文对话
gpt2GPT-2系列基座模型124M基础版本
gpt2-mediumGPT-2系列基座模型355M中等版本
gpt2-largeGPT-2系列基座模型774M大型版本
gpt2-xlGPT-2系列基座模型1.5B超大版本
granite-3.0-1b-a400m-baseGranite系列基座模型1B代码基座模型
granite-3.0-3b-a800m-baseGranite系列基座模型3B代码基座模型
granite-3.0-2b-baseGranite系列基座模型2B代码基座模型
granite-3.0-8b-baseGranite系列基座模型8B代码基座模型
granite-3.0-1b-a400m-instructGranite系列指令模型1B代码指令模型
granite-3.0-3b-a800m-instructGranite系列指令模型3B代码指令模型
granite-3.0-2b-instructGranite系列指令模型2B代码指令模型
granite-3.0-8b-instructGranite系列指令模型8B代码指令模型
granite-3.1-1b-a400m-baseGranite系列基座模型1B3.1版代码基座
granite-3.1-3b-a800m-baseGranite系列基座模型3B3.1版代码基座
granite-3.1-2b-baseGranite系列基座模型2B3.1版代码基座
granite-3.1-8b-baseGranite系列基座模型8B3.1版代码基座
granite-3.1-1b-a400m-instructGranite系列指令模型1B3.1版代码指令
granite-3.1-3b-a800m-instructGranite系列指令模型3B3.1版代码指令
granite-3.1-2b-instructGranite系列指令模型2B3.1版代码指令
granite-3.1-8b-instructGranite系列指令模型8B3.1版代码指令
Index-1.9BIndex系列基座模型1.9B轻量基座模型
Index-1.9B-PureIndex系列基座模型1.9B纯净版基座
Index-1.9B-ChatIndex系列对话模型1.9B轻量对话模型
Index-1.9B-CharacterIndex系列角色模型1.9B角色扮演模型
Index-1.9B-32KIndex系列基座模型1.9B长上下文版本
internlm-7bInternLM系列基座模型7B基座模型
internlm-20bInternLM系列基座模型20B大规模基座
internlm-chat-7bInternLM系列对话模型7B对话模型
internlm-chat-20bInternLM系列对话模型20B大规模对话
internlm2-7bInternLM2系列基座模型7B第2代基座
internlm2-20bInternLM2系列基座模型20B第2代大基座
internlm2-chat-7bInternLM2系列对话模型7B第2代对话
internlm2-chat-20bInternLM2系列对话模型20B第2代大对话
internlm2_5-1_8bInternLM2.5系列基座模型1.8B2.5代轻量基座
internlm2_5-7bInternLM2.5系列基座模型7B2.5代基座
internlm2_5-20bInternLM2.5系列基座模型20B2.5代大基座
internlm2_5-1_8b-chatInternLM2.5系列对话模型1.8B2.5代轻量对话
internlm2_5-7b-chatInternLM2.5系列对话模型7B2.5代对话
internlm2_5-7b-chat-1mInternLM2.5系列对话模型7B百万字长对话
internlm2_5-20b-chatInternLM2.5系列对话模型20B2.5代大对话
internlm3-8b-instructInternLM3系列指令模型8B第3代指令模型
Jamba-v0.1Jamba系列混合模型-SSM-Transformer混合架构
LingoWhale-8BLingoWhale系列基座模型8B中英双语模型
llama-7bLLaMA系列基座模型7B经典基座模型
llama-13bLLaMA系列基座模型13B中等基座模型
llama-30bLLaMA系列基座模型30B大型基座模型
llama-65bLLaMA系列基座模型65B超大规模基座
Llama-2-7b-hfLLaMA-2系列基座模型7B第2代基座
Llama-2-13b-hfLLaMA-2系列基座模型13B第2代基座
Llama-2-70b-hfLLaMA-2系列基座模型70B第2代大基座
Llama-2-7b-chat-hfLLaMA-2系列对话模型7B第2代对话
Llama-2-13b-chat-hfLLaMA-2系列对话模型13B第2代对话
Llama-2-70b-chat-hfLLaMA-2系列对话模型70B第2代大对话
Meta-Llama-3-8BLLaMA-3系列基座模型8B第3代基座
Meta-Llama-3-70BLLaMA-3系列基座模型70B第3代大基座
Meta-Llama-3-8B-InstructLLaMA-3系列指令模型8B第3代指令
Meta-Llama-3-70B-InstructLLaMA-3系列指令模型70B第3代大指令
Llama3-8B-Chinese-ChatLLaMA-3中文对话模型8B中文优化对话
Llama3-70B-Chinese-ChatLLaMA-3中文对话模型70B中文优化大对话
Meta-Llama-3.1-8BLLaMA-3.1系列基座模型8B3.1代基座
Meta-Llama-3.1-70BLLaMA-3.1系列基座模型70B3.1代大基座
Meta-Llama-3.1-405BLLaMA-3.1系列基座模型405B超大规模基座
Meta-Llama-3.1-8B-InstructLLaMA-3.1系列指令模型8B3.1代指令
Meta-Llama-3.1-70B-InstructLLaMA-3.1系列指令模型70B3.1代大指令
Meta-Llama-3.1-405B-InstructLLaMA-3.1系列指令模型405B超大规模指令
Llama3.1-8B-Chinese-ChatLLaMA-3.1中文对话模型8B3.1代中文对话
Llama3.1-70B-Chinese-ChatLLaMA-3.1中文对话模型70B3.1代中文大对话
Llama-3.2-1BLLaMA-3.2系列基座模型1B3.2代轻量基座
Llama-3.2-3BLLaMA-3.2系列基座模型3B3.2代轻量基座
Llama-3.2-1B-InstructLLaMA-3.2系列指令模型1B3.2代轻量指令
Llama-3.2-3B-InstructLLaMA-3.2系列指令模型3B3.2代轻量指令
Llama-3.3-70B-InstructLLaMA-3.3系列指令模型70B3.3代大指令
Llama-3.2-11B-VisionLLaMA-3.2多模态视觉模型11B视觉语言模型
Llama-3.2-11B-Vision-InstructLLaMA-3.2多模态视觉模型11B视觉指令模型
Llama-3.2-90B-VisionLLaMA-3.2多模态视觉模型90B大规模视觉模型
Llama-3.2-90B-Vision-InstructLLaMA-3.2多模态视觉模型90B大规模视觉指令
llava-1.5-7b-hfLLaVA系列多模态模型7B视觉语言模型
llava-1.5-13b-hfLLaVA系列多模态模型13B视觉语言模型
llava-v1.6-vicuna-7b-hfLLaVA系列多模态模型7BVicuna版视觉模型
llava-v1.6-vicuna-13b-hfLLaVA系列多模态模型13BVicuna版视觉模型
llava-v1.6-mistral-7b-hfLLaVA系列多模态模型7BMistral版视觉模型
llama3-llava-next-8b-hfLLaVA系列多模态模型8BLLaMA3版视觉模型
llava-v1.6-34b-hfLLaVA系列多模态模型34B大规模视觉模型
llava-next-72b-hfLLaVA系列多模态模型72B超大规模视觉模型
llava-next-110b-hfLLaVA系列多模态模型110B巨型视觉模型
LLaVA-NeXT-Video-7B-hfLLaVA-NeXT系列视频模型7B视频理解模型
LLaVA-NeXT-Video-7B-DPO-hfLLaVA-NeXT系列视频模型7BDPO优化视频模型
LLaVA-NeXT-Video-7B-32K-hfLLaVA-NeXT系列视频模型7B长视频理解模型
LLaVA-NeXT-Video-34B-hfLLaVA-NeXT系列视频模型34B大规模视频模型
LLaVA-NeXT-Video-34B-DPO-hfLLaVA-NeXT系列视频模型34BDPO优化大视频模型
Marco-o1Marco系列推理模型-数学推理模型
MiniCPM-2B-sft-bf16MiniCPM系列对话模型2BSFT优化对话
MiniCPM-2B-dpo-bf16MiniCPM系列对话模型2BDPO优化对话
MiniCPM3-4BMiniCPM系列对话模型4B第三代对话模型
MiniCPM-o-2_6MiniCPM系列对话模型2.6B优化版对话模型
MiniCPM-V-2_6MiniCPM系列多模态模型2.6B视觉语言模型
Ministral-8B-Instruct-2410Ministral系列指令模型8B轻量指令模型
Mistral-Nemo-Base-2407Mistral系列基座模型-Nemo架构基座
Mistral-Nemo-Instruct-2407Mistral系列指令模型-Nemo架构指令
Mistral-7B-v0.1Mistral系列基座模型7B初代基座模型
Mistral-7B-v0.2-hfMistral系列基座模型7B0.2版基座
Mistral-7B-v0.3Mistral系列基座模型7B0.3版基座
Mistral-7B-Instruct-v0.1Mistral系列指令模型7B初代指令模型
Mistral-7B-Instruct-v0.2Mistral系列指令模型7B0.2版指令
Mistral-7B-Instruct-v0.3Mistral系列指令模型7B0.3版指令
Mistral-Small-24B-Base-2501Mistral系列基座模型24B小规模基座
Mistral-Small-24B-Instruct-2501Mistral系列指令模型24B小规模指令
Mixtral-8x7B-v0.1Mixtral系列基座模型8x7BMoE架构基座
Mixtral-8x22B-v0.1Mixtral系列基座模型8x22B大型MoE基座
Mixtral-8x7B-Instruct-v0.1Mixtral系列指令模型8x7BMoE指令模型
Mixtral-8x22B-Instruct-v0.1Mixtral系列指令模型8x22B大型MoE指令
Moonlight-16B-A3BMoonlight系列基座模型16B月光系列基座
Moonlight-16B-A3B-InstructMoonlight系列指令模型16B月光指令模型
OLMo-1B-hfOLMo系列基座模型1B轻量开源模型
OLMo-7B-hfOLMo系列基座模型7B开源基座模型
OLMo-7B-Instruct-hfOLMo系列指令模型7B开源指令模型
OLMo-1.7-7B-hfOLMo系列基座模型7B1.7版基座
openchat-3.5-0106OpenChat系列对话模型-3.5版对话模型
openchat-3.6-8b-20240522OpenChat系列对话模型8B3.6版对话模型
OpenCoder-1.5B-BaseOpenCoder系列代码模型1.5B轻量代码基座
OpenCoder-8B-BaseOpenCoder系列代码模型8B代码基座模型
OpenCoder-1.5B-InstructOpenCoder系列代码模型1.5B轻量代码指令
OpenCoder-8B-InstructOpenCoder系列代码模型8B代码指令模型
Orion-14B-BaseOrion系列基座模型14B基座模型
Orion-14B-ChatOrion系列对话模型14B对话模型
Orion-14B-LongChatOrion系列对话模型14B长对话模型
Orion-14B-Chat-RAGOrion系列对话模型14BRAG增强对话
Orion-14B-Chat-PluginOrion系列对话模型14B插件支持对话
paligemma-3b-pt-224PaliGemma系列多模态模型3B图像理解模型
paligemma-3b-pt-448PaliGemma系列多模态模型3B高分辨率版本
paligemma-3b-pt-896PaliGemma系列多模态模型3B超高分辨率版
paligemma-3b-mix-224PaliGemma系列多模态模型3B混合训练版本
paligemma-3b-mix-448PaliGemma系列多模态模型3B混合高分辨率版
paligemma2-3b-pt-224PaliGemma2系列多模态模型3B第2代图像模型
paligemma2-3b-pt-448PaliGemma2系列多模态模型3B第2代高分辨率版
paligemma2-3b-pt-896PaliGemma2系列多模态模型3B第2代超高分辨率版
paligemma2-10b-pt-224PaliGemma2系列多模态模型10B第2代中规模模型
paligemma2-10b-pt-448PaliGemma2系列多模态模型10B第2代中规模高分辨率版
paligemma2-10b-pt-896PaliGemma2系列多模态模型10B第2代中规模超高分辨率版
paligemma2-28b-pt-224PaliGemma2系列多模态模型28B第2代大规模模型
paligemma2-28b-pt-448PaliGemma2系列多模态模型28B第2代大规模高分辨率版
paligemma2-28b-pt-896PaliGemma2系列多模态模型28B第2代大规模超高分辨率版
paligemma2-3b-mix-224PaliGemma2系列多模态模型3B第2代混合训练版
paligemma2-3b-mix-448PaliGemma2系列多模态模型3B第2代混合高分辨率版
paligemma2-10b-mix-224PaliGemma2系列多模态模型10B第2代中规模混合版
paligemma2-10b-mix-448PaliGemma2系列多模态模型10B第2代中规模混合高分辨率版
paligemma2-28b-mix-224PaliGemma2系列多模态模型28B第2代大规模混合版
paligemma2-28b-mix-448PaliGemma2系列多模态模型28B第2代大规模混合高分辨率版
phi-1_5Phi系列基座模型1.5B小规模基座
phi-2Phi系列基座模型2.7B轻量基座模型
Phi-3-mini-4k-instructPhi-3系列指令模型-轻量指令模型
Phi-3-mini-128k-instructPhi-3系列指令模型-长上下文指令
Phi-3-medium-4k-instructPhi-3系列指令模型-中等指令模型
Phi-3-medium-128k-instructPhi-3系列指令模型-中规模长上下文指令
Phi-3.5-mini-instructPhi-3.5系列指令模型-3.5代轻量指令
Phi-3.5-MoE-instructPhi-3.5系列指令模型-MoE架构指令
Phi-3-small-8k-instructPhi-3系列指令模型-小规模指令
Phi-3-small-128k-instructPhi-3系列指令模型-小规模长上下文指令
phi-4Phi系列基座模型-第4代基座
pixtral-12bPixtral系列多模态模型12B多语言视觉语言模型
Qwen-1_8BQwen系列基座模型1.8B轻量基座模型
Qwen-7BQwen系列基座模型7B基座模型
Qwen-14BQwen系列基座模型14B中等基座模型
Qwen-72BQwen系列基座模型72B大规模基座模型
Qwen-1_8B-ChatQwen系列对话模型1.8B轻量对话模型
Qwen-7B-ChatQwen系列对话模型7B对话模型
Qwen-14B-ChatQwen系列对话模型14B中等对话模型
Qwen-72B-ChatQwen系列对话模型72B大规模对话模型
Qwen-1_8B-Chat-Int8Qwen系列量化模型1.8BInt8量化版本
Qwen-1_8B-Chat-Int4Qwen系列量化模型1.8BInt4量化版本
Qwen-7B-Chat-Int8Qwen系列量化模型7BInt8量化版本
Qwen-7B-Chat-Int4Qwen系列量化模型7BInt4量化版本
Qwen-14B-Chat-Int8Qwen系列量化模型14BInt8量化版本
Qwen-14B-Chat-Int4Qwen系列量化模型14BInt4量化版本
Qwen-72B-Chat-Int8Qwen系列量化模型72BInt8量化版本
Qwen-72B-Chat-Int4Qwen系列量化模型72BInt4量化版本
Qwen1.5-0.5BQwen1.5系列基座模型0.5B超轻量基座
Qwen1.5-1.8BQwen1.5系列基座模型1.8B轻量基座模型
Qwen1.5-4BQwen1.5系列基座模型4B小规模基座
Qwen1.5-7BQwen1.5系列基座模型7B基座模型
Qwen1.5-14BQwen1.5系列基座模型14B中等基座模型
Qwen1.5-32BQwen1.5系列基座模型32B大规模基座模型
Qwen1.5-72BQwen1.5系列基座模型72B超大规模基座
Qwen1.5-110BQwen1.5系列基座模型110B巨型基座模型
Qwen1.5-MoE-A2.7BQwen1.5系列基座模型2.7BMoE架构基座
Qwen1.5-0.5B-ChatQwen1.5系列对话模型0.5B超轻量对话
Qwen1.5-1.8B-ChatQwen1.5系列对话模型1.8B轻量对话模型
Qwen1.5-4B-ChatQwen1.5系列对话模型4B小规模对话
Qwen1.5-7B-ChatQwen1.5系列对话模型7B对话模型
Qwen1.5-14B-ChatQwen1.5系列对话模型14B中等对话模型
Qwen1.5-32B-ChatQwen1.5系列对话模型32B大规模对话模型
Qwen1.5-72B-ChatQwen1.5系列对话模型72B超大规模对话
Qwen1.5-110B-ChatQwen1.5系列对话模型110B巨型对话模型
Qwen1.5-MoE-A2.7B-ChatQwen1.5系列对话模型2.7BMoE架构对话
CodeQwen1.5-7BCodeQwen系列代码模型7B代码基座模型
CodeQwen1.5-7B-ChatCodeQwen系列代码模型7B代码对话模型
Qwen2-0.5BQwen2系列基座模型0.5B第2代超轻量基座
Qwen2-1.5BQwen2系列基座模型1.5B第2代轻量基座
Qwen2-7BQwen2系列基座模型7B第2代基座模型
Qwen2-72BQwen2系列基座模型72B第2代大规模基座
Qwen2-57B-A14BQwen2系列混合模型57B+14B混合专家模型
Qwen2-0.5B-InstructQwen2系列指令模型0.5B第2代超轻量指令
Qwen2-1.5B-InstructQwen2系列指令模型1.5B第2代轻量指令
Qwen2-7B-InstructQwen2系列指令模型7B第2代指令模型
Qwen2-72B-InstructQwen2系列指令模型72B第2代大规模指令
Qwen2-57B-A14B-InstructQwen2系列指令模型57B+14B混合专家指令
Qwen2-Math-1.5BQwen2-Math系列数学模型1.5B数学基座模型
Qwen2-Math-7BQwen2-Math系列数学模型7B数学基座模型
Qwen2-Math-72BQwen2-Math系列数学模型72B大规模数学模型
Qwen2-Math-1.5B-InstructQwen2-Math系列数学模型1.5B数学指令模型
Qwen2-Math-7B-InstructQwen2-Math系列数学模型7B数学指令模型
Qwen2-Math-72B-InstructQwen2-Math系列数学模型72B大规模数学指令
Qwen2.5-0.5BQwen2.5系列基座模型0.5B2.5代超轻量基座
Qwen2.5-1.5BQwen2.5系列基座模型1.5B2.5代轻量基座
Qwen2.5-3BQwen2.5系列基座模型3B2.5代小规模基座
Qwen2.5-7BQwen2.5系列基座模型7B2.5代基座模型
Qwen2.5-14BQwen2.5系列基座模型14B2.5代中等基座
Qwen2.5-32BQwen2.5系列基座模型32B2.5代大规模基座
Qwen2.5-72BQwen2.5系列基座模型72B2.5代超大规模基座
Qwen2.5-0.5B-InstructQwen2.5系列指令模型0.5B2.5代超轻量指令
Qwen2.5-1.5B-InstructQwen2.5系列指令模型1.5B2.5代轻量指令
Qwen2.5-3B-InstructQwen2.5系列指令模型3B2.5代小规模指令
Qwen2.5-7B-InstructQwen2.5系列指令模型7B2.5代指令模型
Qwen2.5-14B-InstructQwen2.5系列指令模型14B2.5代中等指令
Qwen2.5-32B-InstructQwen2.5系列指令模型32B2.5代大规模指令
Qwen2.5-72B-InstructQwen2.5系列指令模型72B2.5代超大规模指令
Qwen2.5-Coder-0.5BQwen2.5-Coder系列代码模型0.5B超轻量代码基座
Qwen2.5-Coder-1.5BQwen2.5-Coder系列代码模型1.5B轻量代码基座
Qwen2.5-Coder-3BQwen2.5-Coder系列代码模型3B小规模代码基座
Qwen2.5-Coder-7BQwen2.5-Coder系列代码模型7B代码基座模型
Qwen2.5-Coder-14BQwen2.5-Coder系列代码模型14B中等代码基座
Qwen2.5-Coder-32BQwen2.5-Coder系列代码模型32B大规模代码基座
Qwen2.5-Coder-0.5B-InstructQwen2.5-Coder系列代码模型0.5B超轻量代码指令
Qwen2.5-Coder-1.5B-InstructQwen2.5-Coder系列代码模型1.5B轻量代码指令
Qwen2.5-Coder-3B-InstructQwen2.5-Coder系列代码模型3B小规模代码指令
Qwen2.5-Coder-7B-InstructQwen2.5-Coder系列代码模型7B代码指令模型
Qwen2.5-Coder-14B-InstructQwen2.5-Coder系列代码模型14B中等代码指令
Qwen2.5-Coder-32B-InstructQwen2.5-Coder系列代码模型32B大规模代码指令
Qwen2.5-Math-1.5BQwen2.5-Math系列数学模型1.5B轻量数学模型
Qwen2.5-Math-7BQwen2.5-Math系列数学模型7B数学模型
Qwen2.5-Math-72BQwen2.5-Math系列数学模型72B大规模数学模型
Qwen2.5-Math-1.5B-InstructQwen2.5-Math系列数学模型1.5B轻量数学指令
Qwen2.5-Math-7B-InstructQwen2.5-Math系列数学模型7B数学指令模型
Qwen2.5-Math-72B-InstructQwen2.5-Math系列数学模型72B大规模数学指令
QwQ-32B-PreviewQwQ系列预览模型32B预览版本模型
QwQ-32BQwQ系列基座模型32B正式版本模型
Qwen2-Audio-7BQwen2-Audio系列音频模型7B音频基座模型
Qwen2-Audio-7B-InstructQwen2-Audio系列音频模型7B音频指令模型
Qwen2-VL-2BQwen2-VL系列多模态模型2B轻量视觉语言模型
Qwen2-VL-7BQwen2-VL系列多模态模型7B视觉语言模型
Qwen2-VL-72BQwen2-VL系列多模态模型72B大规模视觉语言模型
Qwen2-VL-2B-InstructQwen2-VL系列多模态模型2B轻量视觉指令
Qwen2-VL-7B-InstructQwen2-VL系列多模态模型7B视觉指令模型
Qwen2-VL-72B-InstructQwen2-VL系列多模态模型72B大规模视觉指令
QVQ-72B-PreviewQVQ系列预览模型72B视觉量化预览版
Qwen2.5-VL-3B-InstructQwen2.5-VL系列多模态模型3B2.5代视觉指令
Qwen2.5-VL-7B-InstructQwen2.5-VL系列多模态模型7B2.5代视觉指令
Qwen2.5-VL-72B-InstructQwen2.5-VL系列多模态模型72B2.5代大规模视觉指令
SOLAR-10.7B-v1.0SOLAR系列基座模型10.7B基座模型
SOLAR-10.7B-Instruct-v1.0SOLAR系列指令模型10.7B指令模型
Skywork-13B-baseSkywork系列基座模型13B基座模型
Skywork-o1-Open-Llama-3.1-8BSkywork系列基座模型8B基于LLaMA3.1
starcoder2-3bStarCoder2系列代码模型3B轻量代码模型
starcoder2-7bStarCoder2系列代码模型7B代码模型
starcoder2-15bStarCoder2系列代码模型15B中等代码模型
TeleChat-1BTeleChat系列对话模型1B轻量对话模型
telechat-7BTeleChat系列对话模型7B对话模型
TeleChat-12B-v2TeleChat系列对话模型12B第2版对话模型
TeleChat-52BTeleChat系列对话模型52B大规模对话模型
TeleChat2-3BTeleChat2系列对话模型3B第2代轻量对话
TeleChat2-7BTeleChat2系列对话模型7B第2代对话模型
TeleChat2-115BTeleChat2系列对话模型115B第2代巨型对话
vicuna-7b-v1.5Vicuna系列对话模型7B基于LLaMA的对话模型
vicuna-13b-v1.5Vicuna系列对话模型13B基于LLaMA的对话模型
Video-LLaVA-7B-hfVideo-LLaVA系列视频模型7B视频理解模型
XuanYuan-6BXuanYuan系列基座模型6B金融领域基座
XuanYuan-70BXuanYuan系列基座模型70B金融领域大基座
XuanYuan2-70BXuanYuan2系列基座模型70B第2代金融基座
XuanYuan-6B-ChatXuanYuan系列对话模型6B金融对话模型
XuanYuan-70B-ChatXuanYuan系列对话模型70B金融大对话模型
XuanYuan2-70B-ChatXuanYuan2系列对话模型70B第2代金融对话
XVERSE-7BXVERSE系列基座模型7B基座模型
XVERSE-13BXVERSE系列基座模型13B中等基座模型
XVERSE-65BXVERSE系列基座模型65B大规模基座模型
XVERSE-65B-2XVERSE系列基座模型65B第2版基座模型
XVERSE-7B-ChatXVERSE系列对话模型7B对话模型
XVERSE-13B-ChatXVERSE系列对话模型13B中等对话模型
XVERSE-65B-ChatXVERSE系列对话模型65B大规模对话模型
XVERSE-MoE-A4.2BXVERSE系列基座模型4.2BMoE架构模型
yayi-7b-llama2YaYi系列基座模型7B基于LLaMA2
yayi-13b-llama2YaYi系列基座模型13B基于LLaMA2
Yi-6BYi系列基座模型6B基座模型
Yi-9BYi系列基座模型9B中等基座模型
Yi-34BYi系列基座模型34B大规模基座模型
Yi-6B-ChatYi系列对话模型6B对话模型
Yi-34B-ChatYi系列对话模型34B大规模对话模型
Yi-1.5-6BYi-1.5系列基座模型6B1.5代基座模型
Yi-1.5-9BYi-1.5系列基座模型9B1.5代中等基座
Yi-1.5-34BYi-1.5系列基座模型34B1.5代大规模基座
Yi-1.5-6B-ChatYi-1.5系列对话模型6B1.5代对话模型
Yi-1.5-9B-ChatYi-1.5系列对话模型9B1.5代中等对话
Yi-1.5-34B-ChatYi-1.5系列对话模型34B1.5代大规模对话
Yi-Coder-1.5BYi-Coder系列代码模型1.5B轻量代码模型
Yi-Coder-9BYi-Coder系列代码模型9B代码模型
Yi-Coder-1.5B-ChatYi-Coder系列代码模型1.5B轻量代码对话
Yi-Coder-9B-ChatYi-Coder系列代码模型9B代码对话模型
Yi-VL-6B-hfYi-VL系列多模态模型6B视觉语言模型
Yi-VL-34B-hfYi-VL系列多模态模型34B大规模视觉语言模型
Yuan2-2B-hfYuan2系列基座模型2B轻量基座模型
Yuan2-51B-hfYuan2系列基座模型51B大规模基座模型
Yuan2-102B-hfYuan2系列基座模型102B超大规模基座模型
zephyr-7b-alphaZephyr系列对话模型7BAlpha版本对话
zephyr-7b-betaZephyr系列对话模型7BBeta版本对话
zephyr-orpo-141b-A35b-v0.1Zephyr系列对话模型141B超大规模对话模型
提示

与LLaMA-Factory 0.9.4(Transformers 4.56.0)版本相比,LLaMA-Factory 0.9.4(Transformers 4.57.1)在其基础上新增了对以下模型的支持。请根据您的具体需求,选择适合的镜像版本。

DeepSeek-Coder-V2-Lite-Instruct, DeepSeek-Coder-V2-Instruct, DeepSeek-V2-Chat, DeepSeek-V2-Chat-0628, DeepSeek-V2-Lite-Chat, DeepSeek-V2.5-1210, DeepSeek-V3-0324, DeepSeek-R1-0528-Qwen3-8B, MobileLLM-R1-140M, MobileLLM-R1-140M-base, MobileLLM-R1-360M, MobileLLM-R1-360M-base, MobileLLM-R1-950M, MobileLLM-R1-950M-base, Qwen3-Next-80B-A3B-Instruct, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Instruct, Qwen3-Omni-30B-A3B-Thinking, Qwen3-VL-235B-A22B-Instruct, Qwen3-VL-235B-A22B-Thinking, Qwen3-VL-30B-A3B-Instruct, Qwen3-VL-30B-A3B-Thinking, Qwen3-VL-4B-Instruct, Qwen3-VL-4B-Thinking, Qwen3-VL-8B-Instruct, Qwen3-VL-8B-Thinking

0.9.4(Transformers 4.56.0)

TransformersPyTorchCUDAvLLMHuggingFace Hub镜像Tag状态
4.56.02.7.112.60.10.00.34.3lf0.9.4-tf4.56.0-torch2.7.1-cu12.6-1.1🟡 历史版本
4.56.02.7.112.80.10.00.34.3lf0.9.4-tf4.56.0-torch2.7.1-cu12.8-1.1🟡 历史版本
4.56.02.7.111.80.10.00.34.3lf0.9.4-tf4.56.0-torch2.7.1-cu11.8-1.1🟡 历史版本
4.56.02.6.012.60.10.00.34.3lf0.9.4-tf4.56.0-torch2.6.0-cu12.6-1.1🟡 历史版本
4.56.02.6.012.40.10.00.34.3lf0.9.4-tf4.56.0-torch2.6.0-cu12.4-1.1🟡 历史版本
4.56.02.6.011.80.10.00.34.3lf0.9.4-tf4.56.0-torch2.6.0-cu11.8-1.1🟡 历史版本
4.56.02.5.112.60.10.00.34.3lf0.9.4-tf4.56.0-torch2.5.1-cu12.4-1.1🟡 历史版本
4.56.02.5.112.10.10.00.34.3lf0.9.4-tf4.56.0-torch2.5.1-cu12.1-1.11🟡 历史版本
4.56.02.5.111.80.10.00.34.3lf0.9.4-tf4.56.0-torch2.5.1-cu11.8-1.1🟡 历史版本

0.9.4 版本特性总结

🟢 主版本: transformers 4.57.1 + vllm 0.10.2

  • 默认配置: PyTorch 2.8.0, CUDA 12.6
  • 良好兼容: 支持 CUDA 11.8 / 12.8

🟡 历史版本: transformers 4.56.0 + vllm 0.10.0

  • 广泛兼容: 支持 PyTorch 2.5.1-2.7.1,CUDA 11.8-12.8

0.9.4(Transformers 4.56.0)模型列表

模型详情
模型名称系列分类模型类型参数量特点说明
gpt-oss-20bGPT-OSS系列基座模型20B开源GPT模型
gpt-oss-120bGPT-OSS系列基座模型120B超大规模开源GPT
aya-23-8BAya系列多语言模型8B多语言理解与生成
aya-23-35BAya系列多语言模型35B大规模多语言模型
Baichuan-7BBaichuan系列基座模型7B中英双语基座模型
Baichuan-13B-BaseBaichuan系列基座模型13B中英双语基座模型
Baichuan-13B-ChatBaichuan系列对话模型13B中英双语对话模型
Baichuan2-7B-BaseBaichuan2系列基座模型7B第二代中英双语基座
Baichuan2-13B-BaseBaichuan2系列基座模型13B第二代中英双语基座
Baichuan2-7B-ChatBaichuan2系列对话模型7B第二代对话模型
Baichuan2-13B-ChatBaichuan2系列对话模型13B第二代对话模型
bloom-560mBLOOM系列基座模型560M多语言基座小模型
bloom-3bBLOOM系列基座模型3B多语言基座模型
bloom-7b1BLOOM系列基座模型7B多语言基座模型
bloomz-560mBLOOMZ系列指令调优560M指令调优小模型
bloomz-3bBLOOMZ系列指令调优3B指令调优模型
bloomz-7b1-mtBLOOMZ系列指令调优7B多任务指令调优
BlueLM-7B-BaseBlueLM系列基座模型7B中英双语基座
BlueLM-7B-ChatBlueLM系列对话模型7B中英双语对话
Breeze-7B-Base-v1_0Breeze系列基座模型7B中文轻量基座
Breeze-7B-Instruct-v1_0Breeze系列指令模型7B中文指令模型
chatglm2-6bChatGLM系列对话模型6B第二代对话模型
chatglm3-6b-baseChatGLM系列基座模型6B第三代基座模型
chatglm3-6bChatGLM系列对话模型6B第三代对话模型
chinese-llama-2-1.3bChinese-LLaMA基座模型1.3B中文优化小模型
chinese-llama-2-7bChinese-LLaMA基座模型7B中文优化模型
chinese-llama-2-13bChinese-LLaMA基座模型13B中文优化大模型
chinese-alpaca-2-1.3bChinese-Alpaca对话模型1.3B中文对话小模型
chinese-alpaca-2-7bChinese-Alpaca对话模型7B中文对话模型
chinese-alpaca-2-13bChinese-Alpaca对话模型13B中文对话大模型
codegeex4-all-9bCodeGeeX系列代码模型9B多语言代码生成
codegemma-7bCodeGemma系列代码模型7B代码生成基座
codegemma-7b-itCodeGemma系列代码模型7B代码生成指令版
codegemma-1.1-2bCodeGemma系列代码模型2B轻量代码模型
codegemma-1.1-7b-itCodeGemma系列代码模型7B代码指令模型
Codestral-22B-v0.1Codestral系列代码模型22B大型代码模型
c4ai-command-r-v01Command系列RAG模型-检索增强生成
c4ai-command-r-plusCommand系列RAG模型-增强版RAG模型
c4ai-command-r-v01-4bitCommand系列量化模型-4bit量化版本
c4ai-command-r-plus-4bitCommand系列量化模型-增强版4bit量化
dbrx-baseDBRX系列基座模型-MoE架构基座
dbrx-instructDBRX系列指令模型-MoE指令模型
deepseek-llm-7b-baseDeepSeek-LLM基座模型7B通用基座模型
deepseek-llm-67b-baseDeepSeek-LLM基座模型67B大规模基座模型
deepseek-llm-7b-chatDeepSeek-LLM对话模型7B通用对话模型
deepseek-llm-67b-chatDeepSeek-LLM对话模型67B大规模对话模型
deepseek-math-7b-baseDeepSeek-Math数学模型7B数学基座模型
deepseek-math-7b-instructDeepSeek-Math数学模型7B数学指令模型
deepseek-moe-16b-baseDeepSeek-MoE基座模型16BMoE架构基座
deepseek-moe-16b-chatDeepSeek-MoE对话模型16BMoE对话模型
DeepSeek-V2-LiteDeepSeek-V2轻量模型-V2轻量版本
DeepSeek-V2DeepSeek-V2基座模型-第二代基座
DeepSeek-V2-Lite-ChatDeepSeek-V2对话模型-V2轻量对话
DeepSeek-V2-ChatDeepSeek-V2对话模型-第二代对话
DeepSeek-Coder-V2-Lite-BaseDeepSeek-Coder代码模型-代码轻量基座
DeepSeek-Coder-V2-BaseDeepSeek-Coder代码模型-代码基座模型
DeepSeek-Coder-V2-Lite-InstructDeepSeek-Coder代码模型-代码轻量指令
DeepSeek-Coder-V2-InstructDeepSeek-Coder代码模型-代码指令模型
deepseek-coder-6.7b-baseDeepSeek-Coder代码模型6.7B代码基座模型
deepseek-coder-7b-base-v1.5DeepSeek-Coder代码模型7B代码基座v1.5
deepseek-coder-33b-baseDeepSeek-Coder代码模型33B大规模代码基座
deepseek-coder-6.7b-instructDeepSeek-Coder代码模型6.7B代码指令模型
deepseek-coder-7b-instruct-v1.5DeepSeek-Coder代码模型7B代码指令v1.5
deepseek-coder-33b-instructDeepSeek-Coder代码模型33B大规模代码指令
DeepSeek-V2-Chat-0628DeepSeek-V2对话模型-特定版本对话
DeepSeek-V2.5DeepSeek-V2.5基座模型-2.5代基座
DeepSeek-V2.5-1210DeepSeek-V2.5基座模型-特定版本基座
DeepSeek-V3-BaseDeepSeek-V3基座模型-第三代基座
DeepSeek-V3DeepSeek-V3基座模型-第三代模型
DeepSeek-V3-0324DeepSeek-V3基座模型-特定版本基座
DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1推理模型1.5B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-7BDeepSeek-R1推理模型7B蒸馏推理模型
DeepSeek-R1-Distill-Llama-8BDeepSeek-R1推理模型8B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-14BDeepSeek-R1推理模型14B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1推理模型32B蒸馏推理模型
DeepSeek-R1-Distill-Llama-70BDeepSeek-R1推理模型70B蒸馏推理模型
DeepSeek-R1-ZeroDeepSeek-R1推理模型-零样本推理
DeepSeek-R1DeepSeek-R1推理模型-推理模型
DeepSeek-R1-0528-Qwen3-8BDeepSeek-R1推理模型8B特定版本推理
DeepSeek-R1-0528DeepSeek-R1推理模型-特定版本推理
EXAONE-3.0-7.8B-InstructEXAONE系列指令模型7.8B多模态指令模型
falcon-7bFalcon系列基座模型7B开源基座模型
falcon-11BFalcon系列基座模型11B中等规模基座
falcon-40bFalcon系列基座模型40B大规模基座模型
falcon-180bFalcon系列基座模型180B超大规模基座
falcon-7b-instructFalcon系列指令模型7B指令调优模型
falcon-40b-instructFalcon系列指令模型40B大规模指令模型
falcon-180b-chatFalcon系列对话模型180B超大规模对话
gemma-2bGemma系列基座模型2B轻量基座模型
gemma-7bGemma系列基座模型7B基座模型
gemma-2b-itGemma系列指令模型2B轻量指令模型
gemma-7b-itGemma系列指令模型7B指令模型
gemma-1.1-2b-itGemma系列指令模型2B1.1版指令模型
gemma-1.1-7b-itGemma系列指令模型7B1.1版指令模型
gemma-2-2bGemma2系列基座模型2B第2代轻量基座
gemma-2-9bGemma2系列基座模型9B第2代基座模型
gemma-2-27bGemma2系列基座模型27B第2代大基座
gemma-2-2b-itGemma2系列指令模型2B第2代轻量指令
gemma-2-9b-itGemma2系列指令模型9B第2代指令模型
gemma-2-27b-itGemma2系列指令模型27B第2代大指令模型
glm-4-9bGLM系列基座模型9B第4代基座模型
glm-4-9b-chatGLM系列对话模型9B第4代对话模型
glm-4-9b-chat-1mGLM系列对话模型9B长上下文对话
gpt2GPT-2系列基座模型124M基础版本
gpt2-mediumGPT-2系列基座模型355M中等版本
gpt2-largeGPT-2系列基座模型774M大型版本
gpt2-xlGPT-2系列基座模型1.5B超大版本
granite-3.0-1b-a400m-baseGranite系列基座模型1B代码基座模型
granite-3.0-3b-a800m-baseGranite系列基座模型3B代码基座模型
granite-3.0-2b-baseGranite系列基座模型2B代码基座模型
granite-3.0-8b-baseGranite系列基座模型8B代码基座模型
granite-3.0-1b-a400m-instructGranite系列指令模型1B代码指令模型
granite-3.0-3b-a800m-instructGranite系列指令模型3B代码指令模型
granite-3.0-2b-instructGranite系列指令模型2B代码指令模型
granite-3.0-8b-instructGranite系列指令模型8B代码指令模型
Index-1.9BIndex系列基座模型1.9B轻量基座模型
Index-1.9B-PureIndex系列基座模型1.9B纯净版基座
Index-1.9B-ChatIndex系列对话模型1.9B轻量对话模型
Index-1.9B-CharacterIndex系列角色模型1.9B角色扮演模型
Index-1.9B-32KIndex系列基座模型1.9B长上下文版本
internlm-7bInternLM系列基座模型7B基座模型
internlm-20bInternLM系列基座模型20B大规模基座
internlm-chat-7bInternLM系列对话模型7B对话模型
internlm-chat-20bInternLM系列对话模型20B大规模对话
internlm2-7bInternLM2系列基座模型7B第2代基座
internlm2-20bInternLM2系列基座模型20B第2代大基座
internlm2-chat-7bInternLM2系列对话模型7B第2代对话
internlm2-chat-20bInternLM2系列对话模型20B第2代大对话
internlm2_5-1_8bInternLM2.5系列基座模型1.8B2.5代轻量基座
internlm2_5-7bInternLM2.5系列基座模型7B2.5代基座
internlm2_5-20bInternLM2.5系列基座模型20B2.5代大基座
internlm2_5-1_8b-chatInternLM2.5系列对话模型1.8B2.5代轻量对话
internlm2_5-7b-chatInternLM2.5系列对话模型7B2.5代对话
internlm2_5-7b-chat-1mInternLM2.5系列对话模型7B百万字长对话
internlm2_5-20b-chatInternLM2.5系列对话模型20B2.5代大对话
internlm3-8b-instructInternLM3系列指令模型8B第3代指令模型
Jamba-v0.1Jamba系列混合模型-SSM-Transformer混合架构
LingoWhale-8BLingoWhale系列基座模型8B中英双语模型
llama-7bLLaMA系列基座模型7B经典基座模型
llama-13bLLaMA系列基座模型13B中等基座模型
llama-30bLLaMA系列基座模型30B大型基座模型
llama-65bLLaMA系列基座模型65B超大规模基座
Llama-2-7b-hfLLaMA-2系列基座模型7B第2代基座
Llama-2-13b-hfLLaMA-2系列基座模型13B第2代基座
Llama-2-70b-hfLLaMA-2系列基座模型70B第2代大基座
Llama-2-7b-chat-hfLLaMA-2系列对话模型7B第2代对话
Llama-2-13b-chat-hfLLaMA-2系列对话模型13B第2代对话
Llama-2-70b-chat-hfLLaMA-2系列对话模型70B第2代大对话
Meta-Llama-3-8BLLaMA-3系列基座模型8B第3代基座
Meta-Llama-3-70BLLaMA-3系列基座模型70B第3代大基座
Meta-Llama-3-8B-InstructLLaMA-3系列指令模型8B第3代指令
Meta-Llama-3-70B-InstructLLaMA-3系列指令模型70B第3代大指令
Llama3-8B-Chinese-ChatLLaMA-3中文对话模型8B中文优化对话
Llama3-70B-Chinese-ChatLLaMA-3中文对话模型70B中文优化大对话
Meta-Llama-3.1-8BLLaMA-3.1系列基座模型8B3.1代基座
Meta-Llama-3.1-70BLLaMA-3.1系列基座模型70B3.1代大基座
Meta-Llama-3.1-405BLLaMA-3.1系列基座模型405B超大规模基座
Meta-Llama-3.1-8B-InstructLLaMA-3.1系列指令模型8B3.1代指令
Meta-Llama-3.1-70B-InstructLLaMA-3.1系列指令模型70B3.1代大指令
Meta-Llama-3.1-405B-InstructLLaMA-3.1系列指令模型405B超大规模指令
Llama3.1-8B-Chinese-ChatLLaMA-3.1中文对话模型8B3.1代中文对话
Llama3.1-70B-Chinese-ChatLLaMA-3.1中文对话模型70B3.1代中文大对话
Llama-3.2-1BLLaMA-3.2系列基座模型1B3.2代轻量基座
Llama-3.2-3BLLaMA-3.2系列基座模型3B3.2代轻量基座
Llama-3.2-1B-InstructLLaMA-3.2系列指令模型1B3.2代轻量指令
Llama-3.2-3B-InstructLLaMA-3.2系列指令模型3B3.2代轻量指令
Llama-3.3-70B-InstructLLaMA-3.3系列指令模型70B3.3代大指令
MiniCPM-2B-sft-bf16MiniCPM系列对话模型2BSFT优化对话
MiniCPM-2B-dpo-bf16MiniCPM系列对话模型2BDPO优化对话
MiniCPM3-4BMiniCPM系列对话模型4B第三代对话模型
MiniCPM-o-2_6MiniCPM系列对话模型2.6B优化版对话模型
MiniCPM-V-2_6MiniCPM系列多模态模型2.6B视觉语言模型
Mistral-7B-v0.1Mistral系列基座模型7B初代基座模型
Mistral-7B-v0.2-hfMistral系列基座模型7B0.2版基座
Mistral-7B-v0.3Mistral系列基座模型7B0.3版基座
Mistral-7B-Instruct-v0.1Mistral系列指令模型7B初代指令模型
Mistral-7B-Instruct-v0.2Mistral系列指令模型7B0.2版指令
Mistral-7B-Instruct-v0.3Mistral系列指令模型7B0.3版指令
Mixtral-8x7B-v0.1Mixtral系列基座模型8x7BMoE架构基座
Mixtral-8x22B-v0.1Mixtral系列基座模型8x22B大型MoE基座
Mixtral-8x7B-Instruct-v0.1Mixtral系列指令模型8x7BMoE指令模型
Mixtral-8x22B-Instruct-v0.1Mixtral系列指令模型8x22B大型MoE指令
OLMo-1B-hfOLMo系列基座模型1B轻量开源模型
OLMo-7B-hfOLMo系列基座模型7B开源基座模型
OLMo-7B-Instruct-hfOLMo系列指令模型7B开源指令模型
openchat-3.5-0106OpenChat系列对话模型-3.5版对话模型
openchat-3.6-8b-20240522OpenChat系列对话模型8B3.6版对话模型
Qwen-1_8BQwen系列基座模型1.8B轻量基座模型
Qwen-7BQwen系列基座模型7B基座模型
Qwen-14BQwen系列基座模型14B中等基座模型
Qwen-72BQwen系列基座模型72B大规模基座模型
Qwen-1_8B-ChatQwen系列对话模型1.8B轻量对话模型
Qwen-7B-ChatQwen系列对话模型7B对话模型
Qwen-14B-ChatQwen系列对话模型14B中等对话模型
Qwen-72B-ChatQwen系列对话模型72B大规模对话模型
Qwen1.5-0.5BQwen1.5系列基座模型0.5B超轻量基座
Qwen1.5-1.8BQwen1.5系列基座模型1.8B轻量基座模型
Qwen1.5-4BQwen1.5系列基座模型4B小规模基座
Qwen1.5-7BQwen1.5系列基座模型7B基座模型
Qwen1.5-14BQwen1.5系列基座模型14B中等基座模型
Qwen1.5-32BQwen1.5系列基座模型32B大规模基座模型
Qwen1.5-72BQwen1.5系列基座模型72B超大规模基座
Qwen1.5-110BQwen1.5系列基座模型110B巨型基座模型
Qwen1.5-0.5B-ChatQwen1.5系列对话模型0.5B超轻量对话
Qwen1.5-1.8B-ChatQwen1.5系列对话模型1.8B轻量对话模型
Qwen1.5-4B-ChatQwen1.5系列对话模型4B小规模对话
Qwen1.5-7B-ChatQwen1.5系列对话模型7B对话模型
Qwen1.5-14B-ChatQwen1.5系列对话模型14B中等对话模型
Qwen1.5-32B-ChatQwen1.5系列对话模型32B大规模对话模型
Qwen1.5-72B-ChatQwen1.5系列对话模型72B超大规模对话
Qwen1.5-110B-ChatQwen1.5系列对话模型110B巨型对话模型
Qwen2-0.5BQwen2系列基座模型0.5B第2代超轻量基座
Qwen2-1.5BQwen2系列基座模型1.5B第2代轻量基座
Qwen2-7BQwen2系列基座模型7B第2代基座模型
Qwen2-72BQwen2系列基座模型72B第2代大规模基座
Qwen2-0.5B-InstructQwen2系列指令模型0.5B第2代超轻量指令
Qwen2-1.5B-InstructQwen2系列指令模型1.5B第2代轻量指令
Qwen2-7B-InstructQwen2系列指令模型7B第2代指令模型
Qwen2-72B-InstructQwen2系列指令模型72B第2代大规模指令
SOLAR-10.7B-v1.0SOLAR系列基座模型10.7B基座模型
SOLAR-10.7B-Instruct-v1.0SOLAR系列指令模型10.7B指令模型
starcoder2-3bStarCoder2系列代码模型3B轻量代码模型
starcoder2-7bStarCoder2系列代码模型7B代码模型
starcoder2-15bStarCoder2系列代码模型15B中等代码模型
TeleChat-1BTeleChat系列对话模型1B轻量对话模型
telechat-7BTeleChat系列对话模型7B对话模型
vicuna-7b-v1.5Vicuna系列对话模型7B基于LLaMA的对话模型
vicuna-13b-v1.5Vicuna系列对话模型13B基于LLaMA的对话模型
XuanYuan-6BXuanYuan系列基座模型6B金融领域基座
XuanYuan-70BXuanYuan系列基座模型70B金融领域大基座
XuanYuan-6B-ChatXuanYuan系列对话模型6B金融对话模型
XuanYuan-70B-ChatXuanYuan系列对话模型70B金融大对话模型
XVERSE-7BXVERSE系列基座模型7B基座模型
XVERSE-13BXVERSE系列基座模型13B中等基座模型
XVERSE-65BXVERSE系列基座模型65B大规模基座模型
XVERSE-7B-ChatXVERSE系列对话模型7B对话模型
XVERSE-13B-ChatXVERSE系列对话模型13B中等对话模型
XVERSE-65B-ChatXVERSE系列对话模型65B大规模对话模型
Yi-6BYi系列基座模型6B基座模型
Yi-9BYi系列基座模型9B中等基座模型
Yi-34BYi系列基座模型34B大规模基座模型
Yi-6B-ChatYi系列对话模型6B对话模型
Yi-34B-ChatYi系列对话模型34B大规模对话模型
zephyr-7b-alphaZephyr系列对话模型7BAlpha版本对话
zephyr-7b-betaZephyr系列对话模型7BBeta版本对话
提示

与LLaMA-Factory 0.9.3版本相比,LLaMA-Factory 0.9.4(Transformers 4.56.0)在其基础上新增了对以下模型的支持。请根据您的具体需求,选择适合的镜像版本。

gpt-oss-20b, gpt-oss-120b, dots.ocr, gemma-3-270m, gemma-3-270m-it, GLM-4.1V-9B-Thinking, GLM-4.5-Air-Base, GLM-4.5-Base, GLM-4.5-Air, GLM-4.5, GLM-4.5V, granite-4.0-tiny-preview, Intern-S1-mini, Keye-VL-8B-Preview, Kimi-Dev-72B, Kimi-VL-A3B-Thinking-2506, MiniCPM4.1-8B, MiniCPM-V-4, Mistral-Small-3.2-24B-Instruct-2506, MobileLLM-R1-140M-base, MobileLLM-R1-360M-base, MobileLLM-R1-950M-base, MobileLLM-R1-140M, MobileLLM-R1-360M, MobileLLM-R1-950M, Qwen3-4B-Thinking-2507, Qwen3-30B-A3B-Thinking-2507, Qwen3-235B-A22B-Thinking-2507, Qwen3-Next-80B-A3B-Thinking, Qwen3-Next-80B-A3B-Instruct, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Instruct, Qwen3-Omni-30B-A3B-Thinking, Qwen3-VL-4B-Instruct, Qwen3-VL-8B-Instruct, Qwen3-VL-30B-A3B-Instruct, Qwen3-VL-235B-A22B-Instruct, Qwen3-VL-4B-Thinking, Qwen3-VL-8B-Thinking, Qwen3-VL-30B-A3B-Thinking, Qwen3-VL-235B-A22B-Thinking, Seed-OSS-36B-Base, Seed-OSS-36B-Base-woSyn, Seed-OSS-36B-Instruct

LLaMA-Factory 0.9.3 (历史版本)

0.9.3 镜像列表

TransformersPyTorchCUDAvLLMHuggingFace Hub镜像Tag状态
4.52.42.7.012.60.9.10.34.3lf0.9.3-tf4.52.4-torch2.7.0-cu12.6-1.1🟡 历史版本
4.52.42.7.012.80.9.10.34.3lf0.9.3-tf4.52.4-torch2.7.0-cu12.8-1.1🟡 历史版本
4.52.42.7.011.80.9.10.34.3lf0.9.3-tf4.52.4-torch2.7.0-cu11.8-1.1🟡 历史版本
4.52.42.6.012.60.9.10.34.3lf0.9.3-tf4.52.4-torch2.6.0-cu12.6-1.1🟡 历史版本
4.52.42.6.012.40.9.10.34.3lf0.9.3-tf4.52.4-torch2.6.0-cu12.4-1.1🟡 历史版本
4.52.42.6.011.80.9.10.34.3lf0.9.3-tf4.52.4-torch2.6.0-cu11.8-1.1🟡 历史版本
4.52.42.5.112.40.9.10.34.3lf0.9.3-tf4.52.4-torch2.5.1-cu12.4-1.1🟡 历史版本
4.52.42.5.112.10.9.10.34.3lf0.9.3-tf4.52.4-torch2.5.1-cu12.1-1.1🟡 历史版本
4.52.42.5.111.80.9.10.34.3lf0.9.3-tf4.52.4-torch2.5.1-cu11.8-1.1🟡 历史版本

0.9.3版本特性总结

  • 🔄 稳定版本: transformers 4.52.4 + vllm 0.9.1
  • 🔄 良好兼容: 支持PyTorch 2.5.1-2.7.0,CUDA 11.8-12.8

0.9.3模型列表

模型详情
模型名称系列分类模型类型参数量特点说明
aya-23-8BAya系列多语言模型8B多语言理解与生成
aya-23-35BAya系列多语言模型35B大规模多语言模型
Baichuan-7BBaichuan系列基座模型7B中英双语基座模型
Baichuan-13B-BaseBaichuan系列基座模型13B中英双语基座模型
Baichuan-13B-ChatBaichuan系列对话模型13B中英双语对话模型
Baichuan2-7B-BaseBaichuan2系列基座模型7B第二代中英双语基座
Baichuan2-13B-BaseBaichuan2系列基座模型13B第二代中英双语基座
Baichuan2-7B-ChatBaichuan2系列对话模型7B第二代对话模型
Baichuan2-13B-ChatBaichuan2系列对话模型13B第二代对话模型
bloom-560mBLOOM系列基座模型560M多语言基座小模型
bloom-3bBLOOM系列基座模型3B多语言基座模型
bloom-7b1BLOOM系列基座模型7B多语言基座模型
bloomz-560mBLOOMZ系列指令调优560M指令调优小模型
bloomz-3bBLOOMZ系列指令调优3B指令调优模型
bloomz-7b1-mtBLOOMZ系列指令调优7B多任务指令调优
BlueLM-7B-BaseBlueLM系列基座模型7B中英双语基座
BlueLM-7B-ChatBlueLM系列对话模型7B中英双语对话
Breeze-7B-Base-v1_0Breeze系列基座模型7B中文轻量基座
Breeze-7B-Instruct-v1_0Breeze系列指令模型7B中文指令模型
chatglm2-6bChatGLM系列对话模型6B第二代对话模型
chatglm3-6b-baseChatGLM系列基座模型6B第三代基座模型
chatglm3-6bChatGLM系列对话模型6B第三代对话模型
chinese-llama-2-1.3bChinese-LLaMA基座模型1.3B中文优化小模型
chinese-llama-2-7bChinese-LLaMA基座模型7B中文优化模型
chinese-llama-2-13bChinese-LLaMA基座模型13B中文优化大模型
chinese-alpaca-2-1.3bChinese-Alpaca对话模型1.3B中文对话小模型
chinese-alpaca-2-7bChinese-Alpaca对话模型7B中文对话模型
chinese-alpaca-2-13bChinese-Alpaca对话模型13B中文对话大模型
codegeex4-all-9bCodeGeeX系列代码模型9B多语言代码生成
codegemma-7bCodeGemma系列代码模型7B代码生成基座
codegemma-7b-itCodeGemma系列代码模型7B代码生成指令版
codegemma-1.1-2bCodeGemma系列代码模型2B轻量代码模型
codegemma-1.1-7b-itCodeGemma系列代码模型7B代码指令模型
Codestral-22B-v0.1Codestral系列代码模型22B大型代码模型
c4ai-command-r-v01Command系列RAG模型-检索增强生成
c4ai-command-r-plusCommand系列RAG模型-增强版RAG模型
c4ai-command-r-v01-4bitCommand系列量化模型-4bit量化版本
c4ai-command-r-plus-4bitCommand系列量化模型-增强版4bit量化
dbrx-baseDBRX系列基座模型-MoE架构基座
dbrx-instructDBRX系列指令模型-MoE指令模型
deepseek-llm-7b-baseDeepSeek-LLM基座模型7B通用基座模型
deepseek-llm-67b-baseDeepSeek-LLM基座模型67B大规模基座模型
deepseek-llm-7b-chatDeepSeek-LLM对话模型7B通用对话模型
deepseek-llm-67b-chatDeepSeek-LLM对话模型67B大规模对话模型
deepseek-math-7b-baseDeepSeek-Math数学模型7B数学基座模型
deepseek-math-7b-instructDeepSeek-Math数学模型7B数学指令模型
deepseek-moe-16b-baseDeepSeek-MoE基座模型16BMoE架构基座
deepseek-moe-16b-chatDeepSeek-MoE对话模型16BMoE对话模型
DeepSeek-V2-LiteDeepSeek-V2轻量模型-V2轻量版本
DeepSeek-V2DeepSeek-V2基座模型-第二代基座
DeepSeek-V2-Lite-ChatDeepSeek-V2对话模型-V2轻量对话
DeepSeek-V2-ChatDeepSeek-V2对话模型-第二代对话
DeepSeek-Coder-V2-Lite-BaseDeepSeek-Coder代码模型-代码轻量基座
DeepSeek-Coder-V2-BaseDeepSeek-Coder代码模型-代码基座模型
DeepSeek-Coder-V2-Lite-InstructDeepSeek-Coder代码模型-代码轻量指令
DeepSeek-Coder-V2-InstructDeepSeek-Coder代码模型-代码指令模型
deepseek-coder-6.7b-baseDeepSeek-Coder代码模型6.7B代码基座模型
deepseek-coder-7b-base-v1.5DeepSeek-Coder代码模型7B代码基座v1.5
deepseek-coder-33b-baseDeepSeek-Coder代码模型33B大规模代码基座
deepseek-coder-6.7b-instructDeepSeek-Coder代码模型6.7B代码指令模型
deepseek-coder-7b-instruct-v1.5DeepSeek-Coder代码模型7B代码指令v1.5
deepseek-coder-33b-instructDeepSeek-Coder代码模型33B大规模代码指令
DeepSeek-V2-Chat-0628DeepSeek-V2对话模型-特定版本对话
DeepSeek-V2.5DeepSeek-V2.5基座模型-2.5代基座
DeepSeek-V2.5-1210DeepSeek-V2.5基座模型-特定版本基座
DeepSeek-V3-BaseDeepSeek-V3基座模型-第三代基座
DeepSeek-V3DeepSeek-V3基座模型-第三代模型
DeepSeek-V3-0324DeepSeek-V3基座模型-特定版本基座
DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1推理模型1.5B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-7BDeepSeek-R1推理模型7B蒸馏推理模型
DeepSeek-R1-Distill-Llama-8BDeepSeek-R1推理模型8B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-14BDeepSeek-R1推理模型14B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1推理模型32B蒸馏推理模型
DeepSeek-R1-Distill-Llama-70BDeepSeek-R1推理模型70B蒸馏推理模型
DeepSeek-R1-ZeroDeepSeek-R1推理模型-零样本推理
DeepSeek-R1DeepSeek-R1推理模型-推理模型
DeepSeek-R1-0528-Qwen3-8BDeepSeek-R1推理模型8B特定版本推理
DeepSeek-R1-0528DeepSeek-R1推理模型-特定版本推理
EXAONE-3.0-7.8B-InstructEXAONE系列指令模型7.8B多模态指令模型
falcon-7bFalcon系列基座模型7B开源基座模型
falcon-11BFalcon系列基座模型11B中等规模基座
falcon-40bFalcon系列基座模型40B大规模基座模型
falcon-180bFalcon系列基座模型180B超大规模基座
falcon-7b-instructFalcon系列指令模型7B指令调优模型
falcon-40b-instructFalcon系列指令模型40B大规模指令模型
falcon-180b-chatFalcon系列对话模型180B超大规模对话
gemma-2bGemma系列基座模型2B轻量基座模型
gemma-7bGemma系列基座模型7B基座模型
gemma-2b-itGemma系列指令模型2B轻量指令模型
gemma-7b-itGemma系列指令模型7B指令模型
gemma-1.1-2b-itGemma系列指令模型2B1.1版指令模型
gemma-1.1-7b-itGemma系列指令模型7B1.1版指令模型
gemma-2-2bGemma2系列基座模型2B第2代轻量基座
gemma-2-9bGemma2系列基座模型9B第2代基座模型
gemma-2-27bGemma2系列基座模型27B第2代大基座
gemma-2-2b-itGemma2系列指令模型2B第2代轻量指令
gemma-2-9b-itGemma2系列指令模型9B第2代指令模型
gemma-2-27b-itGemma2系列指令模型27B第2代大指令模型
glm-4-9bGLM系列基座模型9B第4代基座模型
glm-4-9b-chatGLM系列对话模型9B第4代对话模型
glm-4-9b-chat-1mGLM系列对话模型9B长上下文对话
gpt2GPT-2系列基座模型124M基础版本
gpt2-mediumGPT-2系列基座模型355M中等版本
gpt2-largeGPT-2系列基座模型774M大型版本
gpt2-xlGPT-2系列基座模型1.5B超大版本
Index-1.9BIndex系列基座模型1.9B轻量基座模型
Index-1.9B-PureIndex系列基座模型1.9B纯净版基座
Index-1.9B-ChatIndex系列对话模型1.9B轻量对话模型
Index-1.9B-CharacterIndex系列角色模型1.9B角色扮演模型
Index-1.9B-32KIndex系列基座模型1.9B长上下文版本
internlm-7bInternLM系列基座模型7B基座模型
internlm-20bInternLM系列基座模型20B大规模基座
internlm-chat-7bInternLM系列对话模型7B对话模型
internlm-chat-20bInternLM系列对话模型20B大规模对话
internlm2-7bInternLM2系列基座模型7B第2代基座
internlm2-20bInternLM2系列基座模型20B第2代大基座
internlm2-chat-7bInternLM2系列对话模型7B第2代对话
internlm2-chat-20bInternLM2系列对话模型20B第2代大对话
internlm2_5-1_8bInternLM2.5系列基座模型1.8B2.5代轻量基座
internlm2_5-7bInternLM2.5系列基座模型7B2.5代基座
internlm2_5-20bInternLM2.5系列基座模型20B2.5代大基座
internlm2_5-1_8b-chatInternLM2.5系列对话模型1.8B2.5代轻量对话
internlm2_5-7b-chatInternLM2.5系列对话模型7B2.5代对话
internlm2_5-7b-chat-1mInternLM2.5系列对话模型7B百万字长对话
internlm2_5-20b-chatInternLM2.5系列对话模型20B2.5代大对话
internlm3-8b-instructInternLM3系列指令模型8B第3代指令模型
Jamba-v0.1Jamba系列混合模型-SSM-Transformer混合架构
LingoWhale-8BLingoWhale系列基座模型8B中英双语模型
llama-7bLLaMA系列基座模型7B经典基座模型
llama-13bLLaMA系列基座模型13B中等基座模型
llama-30bLLaMA系列基座模型30B大型基座模型
llama-65bLLaMA系列基座模型65B超大规模基座
Llama-2-7b-hfLLaMA-2系列基座模型7B第2代基座
Llama-2-13b-hfLLaMA-2系列基座模型13B第2代基座
Llama-2-70b-hfLLaMA-2系列基座模型70B第2代大基座
Llama-2-7b-chat-hfLLaMA-2系列对话模型7B第2代对话
Llama-2-13b-chat-hfLLaMA-2系列对话模型13B第2代对话
Llama-2-70b-chat-hfLLaMA-2系列对话模型70B第2代大对话
Meta-Llama-3-8BLLaMA-3系列基座模型8B第3代基座
Meta-Llama-3-70BLLaMA-3系列基座模型70B第3代大基座
Meta-Llama-3-8B-InstructLLaMA-3系列指令模型8B第3代指令
Meta-Llama-3-70B-InstructLLaMA-3系列指令模型70B第3代大指令
Llama3-8B-Chinese-ChatLLaMA-3中文对话模型8B中文优化对话
Llama3-70B-Chinese-ChatLLaMA-3中文对话模型70B中文优化大对话
Meta-Llama-3.1-8BLLaMA-3.1系列基座模型8B3.1代基座
Meta-Llama-3.1-70BLLaMA-3.1系列基座模型70B3.1代大基座
Meta-Llama-3.1-405BLLaMA-3.1系列基座模型405B超大规模基座
Meta-Llama-3.1-8B-InstructLLaMA-3.1系列指令模型8B3.1代指令
Meta-Llama-3.1-70B-InstructLLaMA-3.1系列指令模型70B3.1代大指令
Meta-Llama-3.1-405B-InstructLLaMA-3.1系列指令模型405B超大规模指令
Llama3.1-8B-Chinese-ChatLLaMA-3.1中文对话模型8B3.1代中文对话
Llama3.1-70B-Chinese-ChatLLaMA-3.1中文对话模型70B3.1代中文大对话
Llama-3.2-1BLLaMA-3.2系列基座模型1B3.2代轻量基座
Llama-3.2-3BLLaMA-3.2系列基座模型3B3.2代轻量基座
Llama-3.2-1B-InstructLLaMA-3.2系列指令模型1B3.2代轻量指令
Llama-3.2-3B-InstructLLaMA-3.2系列指令模型3B3.2代轻量指令
Llama-3.3-70B-InstructLLaMA-3.3系列指令模型70B3.3代大指令
MiniCPM-2B-sft-bf16MiniCPM系列对话模型2BSFT优化对话
MiniCPM-2B-dpo-bf16MiniCPM系列对话模型2BDPO优化对话
MiniCPM3-4BMiniCPM系列对话模型4B第三代对话模型
MiniCPM-o-2_6MiniCPM系列对话模型2.6B优化版对话模型
MiniCPM-V-2_6MiniCPM系列多模态模型2.6B视觉语言模型
Mistral-7B-v0.1Mistral系列基座模型7B初代基座模型
Mistral-7B-v0.2-hfMistral系列基座模型7B0.2版基座
Mistral-7B-v0.3Mistral系列基座模型7B0.3版基座
Mistral-7B-Instruct-v0.1Mistral系列指令模型7B初代指令模型
Mistral-7B-Instruct-v0.2Mistral系列指令模型7B0.2版指令
Mistral-7B-Instruct-v0.3Mistral系列指令模型7B0.3版指令
Mixtral-8x7B-v0.1Mixtral系列基座模型8x7BMoE架构基座
Mixtral-8x22B-v0.1Mixtral系列基座模型8x22B大型MoE基座
Mixtral-8x7B-Instruct-v0.1Mixtral系列指令模型8x7BMoE指令模型
Mixtral-8x22B-Instruct-v0.1Mixtral系列指令模型8x22B大型MoE指令
OLMo-1B-hfOLMo系列基座模型1B轻量开源模型
OLMo-7B-hfOLMo系列基座模型7B开源基座模型
OLMo-7B-Instruct-hfOLMo系列指令模型7B开源指令模型
openchat-3.5-0106OpenChat系列对话模型-3.5版对话模型
openchat-3.6-8b-20240522OpenChat系列对话模型8B3.6版对话模型
Qwen-1_8BQwen系列基座模型1.8B轻量基座模型
Qwen-7BQwen系列基座模型7B基座模型
Qwen-14BQwen系列基座模型14B中等基座模型
Qwen-72BQwen系列基座模型72B大规模基座模型
Qwen-1_8B-ChatQwen系列对话模型1.8B轻量对话模型
Qwen-7B-ChatQwen系列对话模型7B对话模型
Qwen-14B-ChatQwen系列对话模型14B中等对话模型
Qwen-72B-ChatQwen系列对话模型72B大规模对话模型
Qwen1.5-0.5BQwen1.5系列基座模型0.5B超轻量基座
Qwen1.5-1.8BQwen1.5系列基座模型1.8B轻量基座模型
Qwen1.5-4BQwen1.5系列基座模型4B小规模基座
Qwen1.5-7BQwen1.5系列基座模型7B基座模型
Qwen1.5-14BQwen1.5系列基座模型14B中等基座模型
Qwen1.5-32BQwen1.5系列基座模型32B大规模基座模型
Qwen1.5-72BQwen1.5系列基座模型72B超大规模基座
Qwen1.5-110BQwen1.5系列基座模型110B巨型基座模型
Qwen1.5-0.5B-ChatQwen1.5系列对话模型0.5B超轻量对话
Qwen1.5-1.8B-ChatQwen1.5系列对话模型1.8B轻量对话模型
Qwen1.5-4B-ChatQwen1.5系列对话模型4B小规模对话
Qwen1.5-7B-ChatQwen1.5系列对话模型7B对话模型
Qwen1.5-14B-ChatQwen1.5系列对话模型14B中等对话模型
Qwen1.5-32B-ChatQwen1.5系列对话模型32B大规模对话模型
Qwen1.5-72B-ChatQwen1.5系列对话模型72B超大规模对话
Qwen1.5-110B-ChatQwen1.5系列对话模型110B巨型对话模型
Qwen2-0.5BQwen2系列基座模型0.5B第2代超轻量基座
Qwen2-1.5BQwen2系列基座模型1.5B第2代轻量基座
Qwen2-7BQwen2系列基座模型7B第2代基座模型
Qwen2-72BQwen2系列基座模型72B第2代大规模基座
Qwen2-0.5B-InstructQwen2系列指令模型0.5B第2代超轻量指令
Qwen2-1.5B-InstructQwen2系列指令模型1.5B第2代轻量指令
Qwen2-7B-InstructQwen2系列指令模型7B第2代指令模型
Qwen2-72B-InstructQwen2系列指令模型72B第2代大规模指令
SOLAR-10.7B-v1.0SOLAR系列基座模型10.7B基座模型
SOLAR-10.7B-Instruct-v1.0SOLAR系列指令模型10.7B指令模型
starcoder2-3bStarCoder2系列代码模型3B轻量代码模型
starcoder2-7bStarCoder2系列代码模型7B代码模型
starcoder2-15bStarCoder2系列代码模型15B中等代码模型
TeleChat-1BTeleChat系列对话模型1B轻量对话模型
telechat-7BTeleChat系列对话模型7B对话模型
vicuna-7b-v1.5Vicuna系列对话模型7B基于LLaMA的对话模型
vicuna-13b-v1.5Vicuna系列对话模型13B基于LLaMA的对话模型
XuanYuan-6BXuanYuan系列基座模型6B金融领域基座
XuanYuan-70BXuanYuan系列基座模型70B金融领域大基座
XuanYuan-6B-ChatXuanYuan系列对话模型6B金融对话模型
XuanYuan-70B-ChatXuanYuan系列对话模型70B金融大对话模型
XVERSE-7BXVERSE系列基座模型7B基座模型
XVERSE-13BXVERSE系列基座模型13B中等基座模型
XVERSE-65BXVERSE系列基座模型65B大规模基座模型
XVERSE-7B-ChatXVERSE系列对话模型7B对话模型
XVERSE-13B-ChatXVERSE系列对话模型13B中等对话模型
XVERSE-65B-ChatXVERSE系列对话模型65B大规模对话模型
Yi-6BYi系列基座模型6B基座模型
Yi-9BYi系列基座模型9B中等基座模型
Yi-34BYi系列基座模型34B大规模基座模型
Yi-6B-ChatYi系列对话模型6B对话模型
Yi-34B-ChatYi系列对话模型34B大规模对话模型
zephyr-7b-alphaZephyr系列对话模型7BAlpha版本对话
zephyr-7b-betaZephyr系列对话模型7BBeta版本对话
提示

与LLaMA-Factory 0.9.2版本相比,LLaMA-Factory 0.9.3在其基础上新增了对以下模型的支持。请根据您的具体需求,选择适合的镜像版本。

DeepSeek-V3-0324, DeepSeek-R1-0528-Qwen3-8B, DeepSeek-R1-0528, gemma-3-1b-pt, gemma-3-1b-it, medgemma-27b-text-it, gemma-3-4b-pt, gemma-3-12b-pt, gemma-3-27b-pt, gemma-3-4b-it, gemma-3-12b-it, gemma-3-27b-it, medgemma-4b-pt, medgemma-4b-it, GLM-4-9B-0414, GLM-4-32B-Base-0414, GLM-4-32B-0414, GLM-Z1-9B-0414, GLM-Z1-32B-0414, granite-3.2-2b-instruct, granite-3.2-8b-instruct, granite-3.3-2b-base, granite-3.3-8b-base, granite-3.3-2b-instruct, granite-3.3-8b-instruct, granite-vision-3.2-2b, Hunyuan-7B-Instruct, InternVL2_5-2B-MPO-hf, InternVL2_5-8B-MPO-hf, InternVL3-1B-hf, InternVL3-2B-hf, InternVL3-8B-hf, InternVL3-14B-hf, InternVL3-38B-hf, InternVL3-78B-hf, Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking, Llama-4-Scout-17B-16E, Llama-4-Scout-17B-16E-Instruct, Llama-4-Maverick-17B-128E, Llama-4-Maverick-17B-128E-Instruct, MiMo-7B-Base, MiMo-7B-SFT, MiMo-7B-RL, MiMo-7B-RL-ZERO, MiMo-VL-7B-SFT, MiMo-VL-7B-RL, MiniCPM4-0.5B, MiniCPM4-8B, Mistral-Small-3.1-24B-Base-2503, Mistral-Small-3.1-24B-Instruct-2503, Qwen3-0.6B-Base, Qwen3-1.7B-Base, Qwen3-4B-Base, Qwen3-8B-Base, Qwen3-14B-Base, Qwen3-30B-A3B-Base, Qwen3-0.6B, Qwen3-1.7B, Qwen3-4B, Qwen3-8B, Qwen3-14B, Qwen3-32B, Qwen3-30B-A3B, Qwen3-235B-A22B, Qwen3-0.6B-GPTQ-Int8, Qwen3-1.7B-GPTQ-Int8, Qwen3-4B-AWQ, Qwen3-8B-AWQ, Qwen3-14B-AWQ, Qwen3-32B-AWQ, Qwen3-30B-A3B-GPTQ-Int4, Qwen3-235B-A22B-GPTQ-Int4, Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, Qwen2.5-Omni-7B-GPTQ-Int4, Qwen2.5-Omni-7B-AWQ, Qwen2.5-VL-32B-Instruct, Seed-Coder-8B-Base, Seed-Coder-8B-Instruct, Seed-Coder-8B-Reasoning-bf16, SmolLM-135M, SmolLM-360M, SmolLM-1.7B, SmolLM-135M-Instruct, SmolLM-360M-Instruct, SmolLM-1.7B-Instruct, SmolLM2-135M, SmolLM2-360M, SmolLM2-1.7B, SmolLM2-135M-Instruct, SmolLM2-360M-Instruct, SmolLM2-1.7B-Instruct

LLaMA-Factory 0.9.2 (旧版本)

0.9.2镜像列表

TransformersPyTorchCUDAvLLMHuggingFace Hub镜像Tag状态
4.45.22.5.112.40.7.00.34.3lf0.9.2-tf4.45.2-torch2.5.1-cu12.4-1.1🔴 旧版本
4.45.22.5.112.10.7.00.34.3lf0.9.2-tf4.45.2-torch2.5.1-cu12.1-1.1🔴 旧版本
4.45.22.5.111.80.7.00.34.3lf0.9.2-tf4.45.2-torch2.5.1-cu11.8-1.1🔴 旧版本

0.9.2版本特性总结

  • 较旧组件: transformers 4.45.2 + vllm 0.7.0
  • 有限支持: 仅PyTorch 2.5.1,CUDA版本较少

0.9.2模型列表

模型详情
模型名称系列分类模型类型参数量特点说明
aya-23-8BAya系列多语言模型8B多语言理解与生成
aya-23-35BAya系列多语言模型35B大规模多语言模型
Baichuan-7BBaichuan系列基座模型7B中英双语基座模型
Baichuan-13B-BaseBaichuan系列基座模型13B中英双语基座模型
Baichuan-13B-ChatBaichuan系列对话模型13B中英双语对话模型
Baichuan2-7B-BaseBaichuan2系列基座模型7B第二代中英双语基座
Baichuan2-13B-BaseBaichuan2系列基座模型13B第二代中英双语基座
Baichuan2-7B-ChatBaichuan2系列对话模型7B第二代对话模型
Baichuan2-13B-ChatBaichuan2系列对话模型13B第二代对话模型
bloom-560mBLOOM系列基座模型560M多语言基座小模型
bloom-3bBLOOM系列基座模型3B多语言基座模型
bloom-7b1BLOOM系列基座模型7B多语言基座模型
bloomz-560mBLOOMZ系列指令调优560M指令调优小模型
bloomz-3bBLOOMZ系列指令调优3B指令调优模型
bloomz-7b1-mtBLOOMZ系列指令调优7B多任务指令调优
BlueLM-7B-BaseBlueLM系列基座模型7B中英双语基座
BlueLM-7B-ChatBlueLM系列对话模型7B中英双语对话
Breeze-7B-Base-v1_0Breeze系列基座模型7B中文轻量基座
Breeze-7B-Instruct-v1_0Breeze系列指令模型7B中文指令模型
chatglm2-6bChatGLM系列对话模型6B第二代对话模型
chatglm3-6b-baseChatGLM系列基座模型6B第三代基座模型
chatglm3-6bChatGLM系列对话模型6B第三代对话模型
chinese-llama-2-1.3bChinese-LLaMA基座模型1.3B中文优化小模型
chinese-llama-2-7bChinese-LLaMA基座模型7B中文优化模型
chinese-llama-2-13bChinese-LLaMA基座模型13B中文优化大模型
chinese-alpaca-2-1.3bChinese-Alpaca对话模型1.3B中文对话小模型
chinese-alpaca-2-7bChinese-Alpaca对话模型7B中文对话模型
chinese-alpaca-2-13bChinese-Alpaca对话模型13B中文对话大模型
codegeex4-all-9bCodeGeeX系列代码模型9B多语言代码生成
codegemma-7bCodeGemma系列代码模型7B代码生成基座
codegemma-7b-itCodeGemma系列代码模型7B代码生成指令版
codegemma-1.1-2bCodeGemma系列代码模型2B轻量代码模型
codegemma-1.1-7b-itCodeGemma系列代码模型7B代码指令模型
Codestral-22B-v0.1Codestral系列代码模型22B大型代码模型
c4ai-command-r-v01Command系列RAG模型-检索增强生成
c4ai-command-r-plusCommand系列RAG模型-增强版RAG模型
c4ai-command-r-v01-4bitCommand系列量化模型-4bit量化版本
c4ai-command-r-plus-4bitCommand系列量化模型-增强版4bit量化
dbrx-baseDBRX系列基座模型-MoE架构基座
dbrx-instructDBRX系列指令模型-MoE指令模型
deepseek-llm-7b-baseDeepSeek-LLM基座模型7B通用基座模型
deepseek-llm-67b-baseDeepSeek-LLM基座模型67B大规模基座模型
deepseek-llm-7b-chatDeepSeek-LLM对话模型7B通用对话模型
deepseek-llm-67b-chatDeepSeek-LLM对话模型67B大规模对话模型
deepseek-math-7b-baseDeepSeek-Math数学模型7B数学基座模型
deepseek-math-7b-instructDeepSeek-Math数学模型7B数学指令模型
deepseek-moe-16b-baseDeepSeek-MoE基座模型16BMoE架构基座
deepseek-moe-16b-chatDeepSeek-MoE对话模型16BMoE对话模型
DeepSeek-V2-LiteDeepSeek-V2轻量模型-V2轻量版本
DeepSeek-V2DeepSeek-V2基座模型-第二代基座
DeepSeek-V2-Lite-ChatDeepSeek-V2对话模型-V2轻量对话
DeepSeek-V2-ChatDeepSeek-V2对话模型-第二代对话
DeepSeek-Coder-V2-Lite-BaseDeepSeek-Coder代码模型-代码轻量基座
DeepSeek-Coder-V2-BaseDeepSeek-Coder代码模型-代码基座模型
DeepSeek-Coder-V2-Lite-InstructDeepSeek-Coder代码模型-代码轻量指令
DeepSeek-Coder-V2-InstructDeepSeek-Coder代码模型-代码指令模型
deepseek-coder-6.7b-baseDeepSeek-Coder代码模型6.7B代码基座模型
deepseek-coder-7b-base-v1.5DeepSeek-Coder代码模型7B代码基座v1.5
deepseek-coder-33b-baseDeepSeek-Coder代码模型33B大规模代码基座
deepseek-coder-6.7b-instructDeepSeek-Coder代码模型6.7B代码指令模型
deepseek-coder-7b-instruct-v1.5DeepSeek-Coder代码模型7B代码指令v1.5
deepseek-coder-33b-instructDeepSeek-Coder代码模型33B大规模代码指令
DeepSeek-V2-Chat-0628DeepSeek-V2对话模型-特定版本对话
DeepSeek-V2.5DeepSeek-V2.5基座模型-2.5代基座
DeepSeek-V2.5-1210DeepSeek-V2.5基座模型-特定版本基座
DeepSeek-V3-BaseDeepSeek-V3基座模型-第三代基座
DeepSeek-V3DeepSeek-V3基座模型-第三代模型
DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1推理模型1.5B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-7BDeepSeek-R1推理模型7B蒸馏推理模型
DeepSeek-R1-Distill-Llama-8BDeepSeek-R1推理模型8B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-14BDeepSeek-R1推理模型14B蒸馏推理模型
DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1推理模型32B蒸馏推理模型
DeepSeek-R1-Distill-Llama-70BDeepSeek-R1推理模型70B蒸馏推理模型
DeepSeek-R1-ZeroDeepSeek-R1推理模型-零样本推理
DeepSeek-R1DeepSeek-R1推理模型-推理模型
EXAONE-3.0-7.8B-InstructEXAONE系列指令模型7.8B多模态指令模型
falcon-7bFalcon系列基座模型7B开源基座模型
falcon-11BFalcon系列基座模型11B中等规模基座
falcon-40bFalcon系列基座模型40B大规模基座模型
falcon-180bFalcon系列基座模型180B超大规模基座
falcon-7b-instructFalcon系列指令模型7B指令调优模型
falcon-40b-instructFalcon系列指令模型40B大规模指令模型
falcon-180b-chatFalcon系列对话模型180B超大规模对话
gemma-2bGemma系列基座模型2B轻量基座模型
gemma-7bGemma系列基座模型7B基座模型
gemma-2b-itGemma系列指令模型2B轻量指令模型
gemma-7b-itGemma系列指令模型7B指令模型
gemma-1.1-2b-itGemma系列指令模型2B1.1版指令模型
gemma-1.1-7b-itGemma系列指令模型7B1.1版指令模型
gemma-2-2bGemma2系列基座模型2B第2代轻量基座
gemma-2-9bGemma2系列基座模型9B第2代基座模型
gemma-2-27bGemma2系列基座模型27B第2代大基座
gemma-2-2b-itGemma2系列指令模型2B第2代轻量指令
gemma-2-9b-itGemma2系列指令模型9B第2代指令模型
gemma-2-27b-itGemma2系列指令模型27B第2代大指令模型
glm-4-9bGLM系列基座模型9B第4代基座模型
glm-4-9b-chatGLM系列对话模型9B第4代对话模型
glm-4-9b-chat-1mGLM系列对话模型9B长上下文对话
gpt2GPT-2系列基座模型124M基础版本
gpt2-mediumGPT-2系列基座模型355M中等版本
gpt2-largeGPT-2系列基座模型774M大型版本
gpt2-xlGPT-2系列基座模型1.5B超大版本
granite-3.0-1b-a400m-baseGranite系列基座模型1B代码基座模型
granite-3.0-3b-a800m-baseGranite系列基座模型3B代码基座模型
granite-3.0-2b-baseGranite系列基座模型2B代码基座模型
granite-3.0-8b-baseGranite系列基座模型8B代码基座模型
granite-3.0-1b-a400m-instructGranite系列指令模型1B代码指令模型
granite-3.0-3b-a800m-instructGranite系列指令模型3B代码指令模型
granite-3.0-2b-instructGranite系列指令模型2B代码指令模型
granite-3.0-8b-instructGranite系列指令模型8B代码指令模型
granite-3.1-1b-a400m-baseGranite系列基座模型1B3.1版代码基座
granite-3.1-3b-a800m-baseGranite系列基座模型3B3.1版代码基座
granite-3.1-2b-baseGranite系列基座模型2B3.1版代码基座
granite-3.1-8b-baseGranite系列基座模型8B3.1版代码基座
granite-3.1-1b-a400m-instructGranite系列指令模型1B3.1版代码指令
granite-3.1-3b-a800m-instructGranite系列指令模型3B3.1版代码指令
granite-3.1-2b-instructGranite系列指令模型2B3.1版代码指令
granite-3.1-8b-instructGranite系列指令模型8B3.1版代码指令
Index-1.9BIndex系列基座模型1.9B轻量基座模型
Index-1.9B-PureIndex系列基座模型1.9B纯净版基座
Index-1.9B-ChatIndex系列对话模型1.9B轻量对话模型
Index-1.9B-CharacterIndex系列角色模型1.9B角色扮演模型
Index-1.9B-32KIndex系列基座模型1.9B长上下文版本
internlm-7bInternLM系列基座模型7B基座模型
internlm-20bInternLM系列基座模型20B大规模基座
internlm-chat-7bInternLM系列对话模型7B对话模型
internlm-chat-20bInternLM系列对话模型20B大规模对话
internlm2-7bInternLM2系列基座模型7B第2代基座
internlm2-20bInternLM2系列基座模型20B第2代大基座
internlm2-chat-7bInternLM2系列对话模型7B第2代对话
internlm2-chat-20bInternLM2系列对话模型20B第2代大对话
internlm2_5-1_8bInternLM2.5系列基座模型1.8B2.5代轻量基座
internlm2_5-7bInternLM2.5系列基座模型7B2.5代基座
internlm2_5-20bInternLM2.5系列基座模型20B2.5代大基座
internlm2_5-1_8b-chatInternLM2.5系列对话模型1.8B2.5代轻量对话
internlm2_5-7b-chatInternLM2.5系列对话模型7B2.5代对话
internlm2_5-7b-chat-1mInternLM2.5系列对话模型7B百万字长对话
internlm2_5-20b-chatInternLM2.5系列对话模型20B2.5代大对话
internlm3-8b-instructInternLM3系列指令模型8B第3代指令模型
Jamba-v0.1Jamba系列混合模型-SSM-Transformer混合架构
LingoWhale-8BLingoWhale系列基座模型8B中英双语模型
llama-7bLLaMA系列基座模型7B经典基座模型
llama-13bLLaMA系列基座模型13B中等基座模型
llama-30bLLaMA系列基座模型30B大型基座模型
llama-65bLLaMA系列基座模型65B超大规模基座
Llama-2-7b-hfLLaMA-2系列基座模型7B第2代基座
Llama-2-13b-hfLLaMA-2系列基座模型13B第2代基座
Llama-2-70b-hfLLaMA-2系列基座模型70B第2代大基座
Llama-2-7b-chat-hfLLaMA-2系列对话模型7B第2代对话
Llama-2-13b-chat-hfLLaMA-2系列对话模型13B第2代对话
Llama-2-70b-chat-hfLLaMA-2系列对话模型70B第2代大对话
Meta-Llama-3-8BLLaMA-3系列基座模型8B第3代基座
Meta-Llama-3-70BLLaMA-3系列基座模型70B第3代大基座
Meta-Llama-3-8B-InstructLLaMA-3系列指令模型8B第3代指令
Meta-Llama-3-70B-InstructLLaMA-3系列指令模型70B第3代大指令
Llama3-8B-Chinese-ChatLLaMA-3中文对话模型8B中文优化对话
Llama3-70B-Chinese-ChatLLaMA-3中文对话模型70B中文优化大对话
Meta-Llama-3.1-8BLLaMA-3.1系列基座模型8B3.1代基座
Meta-Llama-3.1-70BLLaMA-3.1系列基座模型70B3.1代大基座
Meta-Llama-3.1-405BLLaMA-3.1系列基座模型405B超大规模基座
Meta-Llama-3.1-8B-InstructLLaMA-3.1系列指令模型8B3.1代指令
Meta-Llama-3.1-70B-InstructLLaMA-3.1系列指令模型70B3.1代大指令
Meta-Llama-3.1-405B-InstructLLaMA-3.1系列指令模型405B超大规模指令
Llama3.1-8B-Chinese-ChatLLaMA-3.1中文对话模型8B3.1代中文对话
Llama3.1-70B-Chinese-ChatLLaMA-3.1中文对话模型70B3.1代中文大对话
Llama-3.2-1BLLaMA-3.2系列基座模型1B3.2代轻量基座
Llama-3.2-3BLLaMA-3.2系列基座模型3B3.2代轻量基座
Llama-3.2-1B-InstructLLaMA-3.2系列指令模型1B3.2代轻量指令
Llama-3.2-3B-InstructLLaMA-3.2系列指令模型3B3.2代轻量指令
Llama-3.3-70B-InstructLLaMA-3.3系列指令模型70B3.3代大指令
Llama-3.2-11B-VisionLLaMA-3.2多模态视觉模型11B视觉语言模型
Llama-3.2-11B-Vision-InstructLLaMA-3.2多模态视觉模型11B视觉指令模型
Llama-3.2-90B-VisionLLaMA-3.2多模态视觉模型90B大规模视觉模型
Llama-3.2-90B-Vision-InstructLLaMA-3.2多模态视觉模型90B大规模视觉指令
llava-1.5-7b-hfLLaVA系列多模态模型7B视觉语言模型
llava-1.5-13b-hfLLaVA系列多模态模型13B视觉语言模型
llava-v1.6-vicuna-7b-hfLLaVA系列多模态模型7BVicuna版视觉模型
llava-v1.6-vicuna-13b-hfLLaVA系列多模态模型13BVicuna版视觉模型
llava-v1.6-mistral-7b-hfLLaVA系列多模态模型7BMistral版视觉模型
llama3-llava-next-8b-hfLLaVA系列多模态模型8BLLaMA3版视觉模型
llava-v1.6-34b-hfLLaVA系列多模态模型34B大规模视觉模型
llava-next-72b-hfLLaVA系列多模态模型72B超大规模视觉模型
llava-next-110b-hfLLaVA系列多模态模型110B巨型视觉模型
LLaVA-NeXT-Video-7B-hfLLaVA-NeXT系列视频模型7B视频理解模型
LLaVA-NeXT-Video-7B-DPO-hfLLaVA-NeXT系列视频模型7BDPO优化视频模型
LLaVA-NeXT-Video-7B-32K-hfLLaVA-NeXT系列视频模型7B长视频理解模型
LLaVA-NeXT-Video-34B-hfLLaVA-NeXT系列视频模型34B大规模视频模型
LLaVA-NeXT-Video-34B-DPO-hfLLaVA-NeXT系列视频模型34BDPO优化大视频模型
Marco-o1Marco系列推理模型-数学推理模型
MiniCPM-2B-sft-bf16MiniCPM系列对话模型2BSFT优化对话
MiniCPM-2B-dpo-bf16MiniCPM系列对话模型2BDPO优化对话
MiniCPM3-4BMiniCPM系列对话模型4B第三代对话模型
MiniCPM-o-2_6MiniCPM系列对话模型2.6B优化版对话模型
MiniCPM-V-2_6MiniCPM系列多模态模型2.6B视觉语言模型
Ministral-8B-Instruct-2410Ministral系列指令模型8B轻量指令模型
Mistral-Nemo-Base-2407Mistral系列基座模型-Nemo架构基座
Mistral-Nemo-Instruct-2407Mistral系列指令模型-Nemo架构指令
Mistral-7B-v0.1Mistral系列基座模型7B初代基座模型
Mistral-7B-v0.2-hfMistral系列基座模型7B0.2版基座
Mistral-7B-v0.3Mistral系列基座模型7B0.3版基座
Mistral-7B-Instruct-v0.1Mistral系列指令模型7B初代指令模型
Mistral-7B-Instruct-v0.2Mistral系列指令模型7B0.2版指令
Mistral-7B-Instruct-v0.3Mistral系列指令模型7B0.3版指令
Mistral-Small-24B-Base-2501Mistral系列基座模型24B小规模基座
Mistral-Small-24B-Instruct-2501Mistral系列指令模型24B小规模指令
Mixtral-8x7B-v0.1Mixtral系列基座模型8x7BMoE架构基座
Mixtral-8x22B-v0.1Mixtral系列基座模型8x22B大型MoE基座
Mixtral-8x7B-Instruct-v0.1Mixtral系列指令模型8x7BMoE指令模型
Mixtral-8x22B-Instruct-v0.1Mixtral系列指令模型8x22B大型MoE指令
Moonlight-16B-A3BMoonlight系列基座模型16B月光系列基座
Moonlight-16B-A3B-InstructMoonlight系列指令模型16B月光指令模型
OLMo-1B-hfOLMo系列基座模型1B轻量开源模型
OLMo-7B-hfOLMo系列基座模型7B开源基座模型
OLMo-7B-Instruct-hfOLMo系列指令模型7B开源指令模型
OLMo-1.7-7B-hfOLMo系列基座模型7B1.7版基座
openchat-3.5-0106OpenChat系列对话模型-3.5版对话模型
openchat-3.6-8b-20240522OpenChat系列对话模型8B3.6版对话模型
OpenCoder-1.5B-BaseOpenCoder系列代码模型1.5B轻量代码基座
OpenCoder-8B-BaseOpenCoder系列代码模型8B代码基座模型
OpenCoder-1.5B-InstructOpenCoder系列代码模型1.5B轻量代码指令
OpenCoder-8B-InstructOpenCoder系列代码模型8B代码指令模型
Orion-14B-BaseOrion系列基座模型14B基座模型
Orion-14B-ChatOrion系列对话模型14B对话模型
Orion-14B-LongChatOrion系列对话模型14B长对话模型
Orion-14B-Chat-RAGOrion系列对话模型14BRAG增强对话
Orion-14B-Chat-PluginOrion系列对话模型14B插件支持对话
paligemma-3b-pt-224PaliGemma系列多模态模型3B图像理解模型
paligemma-3b-pt-448PaliGemma系列多模态模型3B高分辨率版本
paligemma-3b-pt-896PaliGemma系列多模态模型3B超高分辨率版
paligemma-3b-mix-224PaliGemma系列多模态模型3B混合训练版本
paligemma-3b-mix-448PaliGemma系列多模态模型3B混合高分辨率版
paligemma2-3b-pt-224PaliGemma2系列多模态模型3B第2代图像模型
paligemma2-3b-pt-448PaliGemma2系列多模态模型3B第2代高分辨率版
paligemma2-3b-pt-896PaliGemma2系列多模态模型3B第2代超高分辨率版
paligemma2-10b-pt-224PaliGemma2系列多模态模型10B第2代中规模模型
paligemma2-10b-pt-448PaliGemma2系列多模态模型10B第2代中规模高分辨率版
paligemma2-10b-pt-896PaliGemma2系列多模态模型10B第2代中规模超高分辨率版
paligemma2-28b-pt-224PaliGemma2系列多模态模型28B第2代大规模模型
paligemma2-28b-pt-448PaliGemma2系列多模态模型28B第2代大规模高分辨率版
paligemma2-28b-pt-896PaliGemma2系列多模态模型28B第2代大规模超高分辨率版
paligemma2-3b-mix-224PaliGemma2系列多模态模型3B第2代混合训练版
paligemma2-3b-mix-448PaliGemma2系列多模态模型3B第2代混合高分辨率版
paligemma2-10b-mix-224PaliGemma2系列多模态模型10B第2代中规模混合版
paligemma2-10b-mix-448PaliGemma2系列多模态模型10B第2代中规模混合高分辨率版
paligemma2-28b-mix-224PaliGemma2系列多模态模型28B第2代大规模混合版
paligemma2-28b-mix-448PaliGemma2系列多模态模型28B第2代大规模混合高分辨率版
phi-1_5Phi系列基座模型1.5B小规模基座
phi-2Phi系列基座模型2.7B轻量基座模型
Phi-3-mini-4k-instructPhi-3系列指令模型-轻量指令模型
Phi-3-mini-128k-instructPhi-3系列指令模型-长上下文指令
Phi-3-medium-4k-instructPhi-3系列指令模型-中等指令模型
Phi-3-medium-128k-instructPhi-3系列指令模型-中规模长上下文指令
Phi-3.5-mini-instructPhi-3.5系列指令模型-3.5代轻量指令
Phi-3.5-MoE-instructPhi-3.5系列指令模型-MoE架构指令
Phi-3-small-8k-instructPhi-3系列指令模型-小规模指令
Phi-3-small-128k-instructPhi-3系列指令模型-小规模长上下文指令
phi-4Phi系列基座模型-第4代基座
pixtral-12bPixtral系列多模态模型12B多语言视觉模型
Qwen-1_8BQwen系列基座模型1.8B轻量基座模型
Qwen-7BQwen系列基座模型7B基座模型
Qwen-14BQwen系列基座模型14B中等基座模型
Qwen-72BQwen系列基座模型72B大规模基座模型
Qwen-1_8B-ChatQwen系列对话模型1.8B轻量对话模型
Qwen-7B-ChatQwen系列对话模型7B对话模型
Qwen-14B-ChatQwen系列对话模型14B中等对话模型
Qwen-72B-ChatQwen系列对话模型72B大规模对话模型
Qwen-1_8B-Chat-Int8Qwen系列量化模型1.8BInt8量化版本
Qwen-1_8B-Chat-Int4Qwen系列量化模型1.8BInt4量化版本
Qwen-7B-Chat-Int8Qwen系列量化模型7BInt8量化版本
Qwen-7B-Chat-Int4Qwen系列量化模型7BInt4量化版本
Qwen-14B-Chat-Int8Qwen系列量化模型14BInt8量化版本
Qwen-14B-Chat-Int4Qwen系列量化模型14BInt4量化版本
Qwen-72B-Chat-Int8Qwen系列量化模型72BInt8量化版本
Qwen-72B-Chat-Int4Qwen系列量化模型72BInt4量化版本
Qwen1.5-0.5BQwen1.5系列基座模型0.5B超轻量基座
Qwen1.5-1.8BQwen1.5系列基座模型1.8B轻量基座模型
Qwen1.5-4BQwen1.5系列基座模型4B小规模基座
Qwen1.5-7BQwen1.5系列基座模型7B基座模型
Qwen1.5-14BQwen1.5系列基座模型14B中等基座模型
Qwen1.5-32BQwen1.5系列基座模型32B大规模基座模型
Qwen1.5-72BQwen1.5系列基座模型72B超大规模基座
Qwen1.5-110BQwen1.5系列基座模型110B巨型基座模型
Qwen1.5-MoE-A2.7BQwen1.5系列基座模型2.7BMoE架构基座
Qwen1.5-0.5B-ChatQwen1.5系列对话模型0.5B超轻量对话
Qwen1.5-1.8B-ChatQwen1.5系列对话模型1.8B轻量对话模型
Qwen1.5-4B-ChatQwen1.5系列对话模型4B小规模对话
Qwen1.5-7B-ChatQwen1.5系列对话模型7B对话模型
Qwen1.5-14B-ChatQwen1.5系列对话模型14B中等对话模型
Qwen1.5-32B-ChatQwen1.5系列对话模型32B大规模对话模型
Qwen1.5-72B-ChatQwen1.5系列对话模型72B超大规模对话
Qwen1.5-110B-ChatQwen1.5系列对话模型110B巨型对话模型
Qwen1.5-MoE-A2.7B-ChatQwen1.5系列对话模型2.7BMoE架构对话
Qwen1.5-0.5B-Chat-GPTQ-Int8Qwen1.5系列量化模型0.5BGPTQ量化版本
Qwen1.5-0.5B-Chat-AWQQwen1.5系列量化模型0.5BAWQ量化版本
Qwen1.5-1.8B-Chat-GPTQ-Int8Qwen1.5系列量化模型1.8BGPTQ量化版本
Qwen1.5-1.8B-Chat-AWQQwen1.5系列量化模型1.8BAWQ量化版本
Qwen1.5-4B-Chat-GPTQ-Int8Qwen1.5系列量化模型4BGPTQ量化版本
Qwen1.5-4B-Chat-AWQQwen1.5系列量化模型4BAWQ量化版本
Qwen1.5-7B-Chat-GPTQ-Int8Qwen1.5系列量化模型7BGPTQ量化版本
Qwen1.5-7B-Chat-AWQQwen1.5系列量化模型7BAWQ量化版本
Qwen1.5-14B-Chat-GPTQ-Int8Qwen1.5系列量化模型14BGPTQ量化版本
Qwen1.5-14B-Chat-AWQQwen1.5系列量化模型14BAWQ量化版本
Qwen1.5-32B-Chat-AWQQwen1.5系列量化模型32BAWQ量化版本
Qwen1.5-72B-Chat-GPTQ-Int8Qwen1.5系列量化模型72BGPTQ量化版本
Qwen1.5-72B-Chat-AWQQwen1.5系列量化模型72BAWQ量化版本
Qwen1.5-110B-Chat-AWQQwen1.5系列量化模型110BAWQ量化版本
Qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4Qwen1.5系列量化模型2.7BMoE量化版本
CodeQwen1.5-7BCodeQwen系列代码模型7B代码基座模型
CodeQwen1.5-7B-ChatCodeQwen系列代码模型7B代码对话模型
CodeQwen1.5-7B-Chat-AWQCodeQwen系列量化模型7B代码量化版本
Qwen2-0.5BQwen2系列基座模型0.5B第2代超轻量基座
Qwen2-1.5BQwen2系列基座模型1.5B第2代轻量基座
Qwen2-7BQwen2系列基座模型7B第2代基座模型
Qwen2-72BQwen2系列基座模型72B第2代大规模基座
Qwen2-57B-A14BQwen2系列混合模型57B+14B混合专家模型
Qwen2-0.5B-InstructQwen2系列指令模型0.5B第2代超轻量指令
Qwen2-1.5B-InstructQwen2系列指令模型1.5B第2代轻量指令
Qwen2-7B-InstructQwen2系列指令模型7B第2代指令模型
Qwen2-72B-InstructQwen2系列指令模型72B第2代大规模指令
Qwen2-57B-A14B-InstructQwen2系列指令模型57B+14B混合专家指令
Qwen2-0.5B-Instruct-GPTQ-Int8Qwen2系列量化模型0.5BGPTQ量化版本
Qwen2-0.5B-Instruct-GPTQ-Int4Qwen2系列量化模型0.5BGPTQ-Int4量化
Qwen2-0.5B-Instruct-AWQQwen2系列量化模型0.5BAWQ量化版本
Qwen2-1.5B-Instruct-GPTQ-Int8Qwen2系列量化模型1.5BGPTQ量化版本
Qwen2-1.5B-Instruct-GPTQ-Int4Qwen2系列量化模型1.5BGPTQ-Int4量化
Qwen2-1.5B-Instruct-AWQQwen2系列量化模型1.5BAWQ量化版本
Qwen2-7B-Instruct-GPTQ-Int8Qwen2系列量化模型7BGPTQ量化版本
Qwen2-7B-Instruct-GPTQ-Int4Qwen2系列量化模型7BGPTQ-Int4量化
Qwen2-7B-Instruct-AWQQwen2系列量化模型7BAWQ量化版本
Qwen2-72B-Instruct-GPTQ-Int8Qwen2系列量化模型72BGPTQ量化版本
Qwen2-72B-Instruct-GPTQ-Int4Qwen2系列量化模型72BGPTQ-Int4量化
Qwen2-72B-Instruct-AWQQwen2系列量化模型72BAWQ量化版本
Qwen2-57B-A14B-Instruct-GPTQ-Int4Qwen2系列量化模型57B+14B混合专家量化
Qwen2-Math-1.5BQwen2-Math系列数学模型1.5B数学基座模型
Qwen2-Math-7BQwen2-Math系列数学模型7B数学基座模型
Qwen2-Math-72BQwen2-Math系列数学模型72B大规模数学模型
Qwen2-Math-1.5B-InstructQwen2-Math系列数学模型1.5B数学指令模型
Qwen2-Math-7B-InstructQwen2-Math系列数学模型7B数学指令模型
Qwen2-Math-72B-InstructQwen2-Math系列数学模型72B大规模数学指令
Qwen2.5-0.5BQwen2.5系列基座模型0.5B2.5代超轻量基座
Qwen2.5-1.5BQwen2.5系列基座模型1.5B2.5代轻量基座
Qwen2.5-3BQwen2.5系列基座模型3B2.5代小规模基座
Qwen2.5-7BQwen2.5系列基座模型7B2.5代基座模型
Qwen2.5-14BQwen2.5系列基座模型14B2.5代中等基座
Qwen2.5-32BQwen2.5系列基座模型32B2.5代大规模基座
Qwen2.5-72BQwen2.5系列基座模型72B2.5代超大规模基座
Qwen2.5-0.5B-InstructQwen2.5系列指令模型0.5B2.5代超轻量指令
Qwen2.5-1.5B-InstructQwen2.5系列指令模型1.5B2.5代轻量指令
Qwen2.5-3B-InstructQwen2.5系列指令模型3B2.5代小规模指令
Qwen2.5-7B-InstructQwen2.5系列指令模型7B2.5代指令模型
Qwen2.5-14B-InstructQwen2.5系列指令模型14B2.5代中等指令
Qwen2.5-32B-InstructQwen2.5系列指令模型32B2.5代大规模指令
Qwen2.5-72B-InstructQwen2.5系列指令模型72B2.5代超大规模指令
Qwen2.5-7B-Instruct-1MQwen2.5系列指令模型7B百万字长上下文
Qwen2.5-14B-Instruct-1MQwen2.5系列指令模型14B百万字长上下文
Qwen2.5-0.5B-Instruct-GPTQ-Int8Qwen2.5系列量化模型0.5BGPTQ量化版本
Qwen2.5-0.5B-Instruct-GPTQ-Int4Qwen2.5系列量化模型0.5BGPTQ-Int4量化
Qwen2.5-0.5B-Instruct-AWQQwen2.5系列量化模型0.5BAWQ量化版本
Qwen2.5-1.5B-Instruct-GPTQ-Int8Qwen2.5系列量化模型1.5BGPTQ量化版本
Qwen2.5-1.5B-Instruct-GPTQ-Int4Qwen2.5系列量化模型1.5BGPTQ-Int4量化
Qwen2.5-1.5B-Instruct-AWQQwen2.5系列量化模型1.5BAWQ量化版本
Qwen2.5-3B-Instruct-GPTQ-Int8Qwen2.5系列量化模型3BGPTQ量化版本
Qwen2.5-3B-Instruct-GPTQ-Int4Qwen2.5系列量化模型3BGPTQ-Int4量化
Qwen2.5-3B-Instruct-AWQQwen2.5系列量化模型3BAWQ量化版本
Qwen2.5-7B-Instruct-GPTQ-Int8Qwen2.5系列量化模型7BGPTQ量化版本
Qwen2.5-7B-Instruct-GPTQ-Int4Qwen2.5系列量化模型7BGPTQ-Int4量化
Qwen2.5-7B-Instruct-AWQQwen2.5系列量化模型7BAWQ量化版本
Qwen2.5-14B-Instruct-GPTQ-Int8Qwen2.5系列量化模型14BGPTQ量化版本
Qwen2.5-14B-Instruct-GPTQ-Int4Qwen2.5系列量化模型14BGPTQ-Int4量化
Qwen2.5-14B-Instruct-AWQQwen2.5系列量化模型14BAWQ量化版本
Qwen2.5-32B-Instruct-GPTQ-Int8Qwen2.5系列量化模型32BGPTQ量化版本
Qwen2.5-32B-Instruct-GPTQ-Int4Qwen2.5系列量化模型32BGPTQ-Int4量化
Qwen2.5-32B-Instruct-AWQQwen2.5系列量化模型32BAWQ量化版本
Qwen2.5-72B-Instruct-GPTQ-Int8Qwen2.5系列量化模型72BGPTQ量化版本
Qwen2.5-72B-Instruct-GPTQ-Int4Qwen2.5系列量化模型72BGPTQ-Int4量化
Qwen2.5-72B-Instruct-AWQQwen2.5系列量化模型72BAWQ量化版本
Qwen2.5-Coder-0.5BQwen2.5-Coder系列代码模型0.5B超轻量代码基座
Qwen2.5-Coder-1.5BQwen2.5-Coder系列代码模型1.5B轻量代码基座
Qwen2.5-Coder-3BQwen2.5-Coder系列代码模型3B小规模代码基座
Qwen2.5-Coder-7BQwen2.5-Coder系列代码模型7B代码基座模型
Qwen2.5-Coder-14BQwen2.5-Coder系列代码模型14B中等代码基座
Qwen2.5-Coder-32BQwen2.5-Coder系列代码模型32B大规模代码基座
Qwen2.5-Coder-0.5B-InstructQwen2.5-Coder系列代码模型0.5B超轻量代码指令
Qwen2.5-Coder-1.5B-InstructQwen2.5-Coder系列代码模型1.5B轻量代码指令
Qwen2.5-Coder-3B-InstructQwen2.5-Coder系列代码模型3B小规模代码指令
Qwen2.5-Coder-7B-InstructQwen2.5-Coder系列代码模型7B代码指令模型
Qwen2.5-Coder-14B-InstructQwen2.5-Coder系列代码模型14B中等代码指令
Qwen2.5-Coder-32B-InstructQwen2.5-Coder系列代码模型32B大规模代码指令
Qwen2.5-Math-1.5BQwen2.5-Math系列数学模型1.5B轻量数学模型
Qwen2.5-Math-7BQwen2.5-Math系列数学模型7B数学模型
Qwen2.5-Math-72BQwen2.5-Math系列数学模型72B大规模数学模型
Qwen2.5-Math-1.5B-InstructQwen2.5-Math系列数学模型1.5B轻量数学指令
Qwen2.5-Math-7B-InstructQwen2.5-Math系列数学模型7B数学指令模型
Qwen2.5-Math-72B-InstructQwen2.5-Math系列数学模型72B大规模数学指令
QwQ-32B-PreviewQwQ系列预览模型32B预览版本模型
QwQ-32BQwQ系列基座模型32B正式版本模型
Qwen2-Audio-7BQwen2-Audio系列音频模型7B音频基座模型
Qwen2-Audio-7B-InstructQwen2-Audio系列音频模型7B音频指令模型
Qwen2-VL-2BQwen2-VL系列多模态模型2B轻量视觉语言模型
Qwen2-VL-7BQwen2-VL系列多模态模型7B视觉语言模型
Qwen2-VL-72BQwen2-VL系列多模态模型72B大规模视觉语言模型
Qwen2-VL-2B-InstructQwen2-VL系列多模态模型2B轻量视觉指令
Qwen2-VL-7B-InstructQwen2-VL系列多模态模型7B视觉指令模型
Qwen2-VL-72B-InstructQwen2-VL系列多模态模型72B大规模视觉指令
Qwen2-VL-2B-Instruct-GPTQ-Int8Qwen2-VL系列量化模型2B视觉GPTQ量化
Qwen2-VL-2B-Instruct-GPTQ-Int4Qwen2-VL系列量化模型2B视觉GPTQ-Int4量化
Qwen2-VL-2B-Instruct-AWQQwen2-VL系列量化模型2B视觉AWQ量化
Qwen2-VL-7B-Instruct-GPTQ-Int8Qwen2-VL系列量化模型7B视觉GPTQ量化
Qwen2-VL-7B-Instruct-GPTQ-Int4Qwen2-VL系列量化模型7B视觉GPTQ-Int4量化
Qwen2-VL-7B-Instruct-AWQQwen2-VL系列量化模型7B视觉AWQ量化
Qwen2-VL-72B-Instruct-GPTQ-Int8Qwen2-VL系列量化模型72B视觉GPTQ量化
Qwen2-VL-72B-Instruct-GPTQ-Int4Qwen2-VL系列量化模型72B视觉GPTQ-Int4量化
Qwen2-VL-72B-Instruct-AWQQwen2-VL系列量化模型72B视觉AWQ量化
QVQ-72B-PreviewQVQ系列预览模型72B视觉量化预览版
Qwen2.5-VL-3B-InstructQwen2.5-VL系列多模态模型3B2.5代视觉指令
Qwen2.5-VL-7B-InstructQwen2.5-VL系列多模态模型7B2.5代视觉指令
Qwen2.5-VL-72B-InstructQwen2.5-VL系列多模态模型72B2.5代大规模视觉指令
Qwen2.5-VL-3B-Instruct-AWQQwen2.5-VL系列量化模型3B视觉AWQ量化
Qwen2.5-VL-7B-Instruct-AWQQwen2.5-VL系列量化模型7B视觉AWQ量化
Qwen2.5-VL-72B-Instruct-AWQQwen2.5-VL系列量化模型72B视觉AWQ量化
SOLAR-10.7B-v1.0SOLAR系列基座模型10.7B基座模型
SOLAR-10.7B-Instruct-v1.0SOLAR系列指令模型10.7B指令模型
Skywork-13B-baseSkywork系列基座模型13B基座模型
Skywork-o1-Open-Llama-3.1-8BSkywork系列基座模型8B基于LLaMA3.1
starcoder2-3bStarCoder2系列代码模型3B轻量代码模型
starcoder2-7bStarCoder2系列代码模型7B代码模型
starcoder2-15bStarCoder2系列代码模型15B中等代码模型
TeleChat-1BTeleChat系列对话模型1B轻量对话模型
telechat-7BTeleChat系列对话模型7B对话模型
TeleChat-12B-v2TeleChat系列对话模型12B第2版对话模型
TeleChat-52BTeleChat系列对话模型52B大规模对话模型
TeleChat2-3BTeleChat2系列对话模型3B第2代轻量对话
TeleChat2-7BTeleChat2系列对话模型7B第2代对话模型
TeleChat2-115BTeleChat2系列对话模型115B第2代巨型对话
vicuna-7b-v1.5Vicuna系列对话模型7B基于LLaMA的对话模型
vicuna-13b-v1.5Vicuna系列对话模型13B基于LLaMA的对话模型
Video-LLaVA-7B-hfVideo-LLaVA系列视频模型7B视频理解模型
XuanYuan-6BXuanYuan系列基座模型6B金融领域基座
XuanYuan-70BXuanYuan系列基座模型70B金融领域大基座
XuanYuan2-70BXuanYuan2系列基座模型70B第2代金融基座
XuanYuan-6B-ChatXuanYuan系列对话模型6B金融对话模型
XuanYuan-70B-ChatXuanYuan系列对话模型70B金融大对话模型
XuanYuan2-70B-ChatXuanYuan2系列对话模型70B第2代金融对话
XuanYuan-6B-Chat-8bitXuanYuan系列量化模型6B8bit量化版本
XuanYuan-6B-Chat-4bitXuanYuan系列量化模型6B4bit量化版本
XuanYuan-70B-Chat-8bitXuanYuan系列量化模型70B8bit量化版本
XuanYuan-70B-Chat-4bitXuanYuan系列量化模型70B4bit量化版本
XuanYuan2-70B-Chat-8bitXuanYuan2系列量化模型70B第2代8bit量化
XuanYuan2-70B-Chat-4bitXuanYuan2系列量化模型70B第2代4bit量化
XVERSE-7BXVERSE系列基座模型7B基座模型
XVERSE-13BXVERSE系列基座模型13B中等基座模型
XVERSE-65BXVERSE系列基座模型65B大规模基座模型
XVERSE-65B-2XVERSE系列基座模型65B第2版基座模型
XVERSE-7B-ChatXVERSE系列对话模型7B对话模型
XVERSE-13B-ChatXVERSE系列对话模型13B中等对话模型
XVERSE-65B-ChatXVERSE系列对话模型65B大规模对话模型
XVERSE-MoE-A4.2BXVERSE系列基座模型4.2BMoE架构模型
XVERSE-7B-Chat-GPTQ-Int8XVERSE系列量化模型7BGPTQ量化版本
XVERSE-7B-Chat-GPTQ-Int4XVERSE系列量化模型7BGPTQ-Int4量化
XVERSE-13B-Chat-GPTQ-Int8XVERSE系列量化模型13BGPTQ量化版本
XVERSE-13B-Chat-GPTQ-Int4XVERSE系列量化模型13BGPTQ-Int4量化
XVERSE-65B-Chat-GPTQ-Int4XVERSE系列量化模型65BGPTQ-Int4量化
yayi-7b-llama2YaYi系列基座模型7B基于LLaMA2
yayi-13b-llama2YaYi系列基座模型13B基于LLaMA2
Yi-6BYi系列基座模型6B基座模型
Yi-9BYi系列基座模型9B中等基座模型
Yi-34BYi系列基座模型34B大规模基座模型
Yi-6B-ChatYi系列对话模型6B对话模型
Yi-34B-ChatYi系列对话模型34B大规模对话模型
Yi-6B-Chat-8bitsYi系列量化模型6B8bit量化版本
Yi-6B-Chat-4bitsYi系列量化模型6B4bit量化版本
Yi-34B-Chat-8bitsYi系列量化模型34B8bit量化版本
Yi-34B-Chat-4bitsYi系列量化模型34B4bit量化版本
Yi-1.5-6BYi-1.5系列基座模型6B1.5代基座模型
Yi-1.5-9BYi-1.5系列基座模型9B1.5代中等基座
Yi-1.5-34BYi-1.5系列基座模型34B1.5代大规模基座
Yi-1.5-6B-ChatYi-1.5系列对话模型6B1.5代对话模型
Yi-1.5-9B-ChatYi-1.5系列对话模型9B1.5代中等对话
Yi-1.5-34B-ChatYi-1.5系列对话模型34B1.5代大规模对话
Yi-Coder-1.5BYi-Coder系列代码模型1.5B轻量代码模型
Yi-Coder-9BYi-Coder系列代码模型9B代码模型
Yi-Coder-1.5B-ChatYi-Coder系列代码模型1.5B轻量代码对话
Yi-Coder-9B-ChatYi-Coder系列代码模型9B代码对话模型
Yi-VL-6B-hfYi-VL系列多模态模型6B视觉语言模型
Yi-VL-34B-hfYi-VL系列多模态模型34B大规模视觉语言模型
Yuan2-2B-hfYuan2系列基座模型2B轻量基座模型
Yuan2-51B-hfYuan2系列基座模型51B大规模基座模型
Yuan2-102B-hfYuan2系列基座模型102B超大规模基座模型
zephyr-7b-alphaZephyr系列对话模型7BAlpha版本对话
zephyr-7b-betaZephyr系列对话模型7BBeta版本对话
zephyr-orpo-141b-A35b-v0.1Zephyr系列对话模型141B超大规模对话模型

版本对比总表

对比维度LLaMA-Factory 0.9.4LLaMA-Factory 0.9.3LLaMA-Factory 0.9.2
状态🟢 主版本/生产推荐🟡 历史版本/稳定🔴 旧版本/维护
Transformers版本4.56.0-4.57.14.52.44.45.2
PyTorch支持2.5.1, 2.6.0, 2.7.1, 2.8.02.5.1, 2.6.0, 2.7.0仅2.5.1
CUDA支持范围11.8, 12.1, 12.4, 12.6, 12.811.8, 12.1, 12.4, 12.6, 12.811.8, 12.1, 12.4
vLLM版本0.10.0-0.10.20.9.10.7.0
HuggingFace Hub0.34.3-0.35.30.34.30.34.3

选择指南

按PyTorch版本选择CUDA

请参考以下版本兼容性列表,根据您所需的PyTorch版本或CUDA版本,选择与之匹配的镜像,并结合实际硬件型号快速启动GPU实例。

PyTorch版本0.9.4可用CUDA0.9.3可用CUDA0.9.2可用CUDA
2.8.011.8, 12.6, 12.8❌ 不支持❌ 不支持
2.7.111.8, 12.6, 12.8❌ 不支持❌ 不支持
2.7.0❌ 不支持11.8, 12.6, 12.8❌ 不支持
2.6.011.8, 12.4, 12.611.8, 12.4, 12.6❌ 不支持
2.5.111.8, 12.1, 12.4, 12.611.8, 12.1, 12.411.8, 12.1, 12.4

按CUDA版本选择PyTorch

CUDA版本0.9.4可用PyTorch0.9.3可用PyTorch0.9.2可用PyTorch
12.82.8.0, 2.7.12.7.0❌ 不支持
12.62.8.0, 2.7.1, 2.6.02.7.0, 2.6.0❌ 不支持
12.42.6.0, 2.5.12.6.0, 2.5.12.5.1
12.12.5.12.5.12.5.1
11.82.8.0, 2.7.1, 2.6.0, 2.5.12.7.0, 2.6.0, 2.5.12.5.1

总结

为了获得最佳稳定性和兼容性,我们建议大多数用户选择LLaMA-Factory的主版本系列(当前最新为 0.9.4)。在选择时,请务必根据您本地环境的​CUDA版本​来选取对应的镜像标签。

  • 🟢 生产环境: 选择0.9.4主版本
  • 🟡 兼容性测试: 选择0.9.4历史变体或0.9.3版本
  • 🔴 遗留系统: 仅在必要时选择0.9.2版本