跳到主要内容

构建基于Llama-3.2-11B-Vision-Instruct金融分析

更新时间:2025-08-13 16:43:25
预置模型/数据集使用超便捷高性能GPU卡金融分析存储钜惠LoRA微调

在金融领域中,图表承担了展示信息的重要责任,而读取图表中所包含的信息对每位金融从业者更是必不可少的机能。如今,金融分析愈发成熟,我们每天需要处理的图标也随之越来越复杂,此时AI的引入能够帮助我们更有效更快速地抓取关键信息在金融领域中,图表承担了展示信息的重要责任,而读取图表中所包含的信息对每位金融从业者更是必不可少的机能。如今,金融分析愈发成熟,我们每天需要处理的图表也随之越来越复杂,此时AI的引入能够帮助我们更有效更快速地抓取关键信息。

金融特化版Llama-3.2-11B-Vision-Instruct是针对金融分析与决策优化的多模态模型,能够同时处理文本、数据和视觉输入(如财报、市场指标、K线图等),输出包括财务分析、风险提示、趋势解读等结构化洞察。其应用涵盖自动化投研(快速提取关键财务信号)、合规审查(识别文档风险点)及可视化报告生成(结合图表与文本分析),通过金融领域语料和视觉数据的针对性微调,提升了处理复杂金融信息的准确性与实用性,适用于投行、资管和企业财务等场景。

前提条件

  • 用户已经获取LLaMA Factory Online平台账户和密码,如果需要帮助或尚未注册,可参考注册账户完成注册。
  • 当前账号的余额充裕,可满足模型微调服务的需要。点击可了解最新的活动费用信息,或前往充值,如需了解更多请联系我们

操作步骤

配置概览

配置参数配置项是否预置说明
模型Llama3.2-11B-Vision-Instruct经过指令微调,参数量约110亿 (11B),专为处理图像和文本数据的任务而设计。
数据集fin_mme金融多模态推理评估基准数据集。
GPUH800*4(推荐)-H800**2(最少)。
微调方法lora-显著降低计算与存储成本,兼具高性能与部署灵活性。

资源消耗预览

时长

使用推荐资源(H800*4)进行微调时微调过程总时长约36min。

操作详情

  1. 使用已注册的LLaMA Factory Online账号登录平台,选择[实例空间]菜单项,进入实例空间页面,例如下图所示。

    SwanLab对比图

  2. 单击上图“开始微调”按钮,进入[配置资源]页面,选择GPU资源,卡数填写4,其他参数保持为默认值,例如下图所示。

    SwanLab对比图

  3. 单击“启动”按钮,待实例启动后,点击[LLaMA-Factory快速微调模型]页签,进入LLaMA Factory Online在线WebUI微调配置页面,语言选择zh,如下图高亮①所示;模型名称选择Llama-3.2-11B-Vision-Instruct,如下图高亮②所示;系统默认填充模型路径/shared-only/models/meta-llama/Llama-3.2-11B-Vision-Instruct

  4. 微调方法选择lora,如下图高亮④所示;选择“train”功能性,训练方式保持Supervised Fine-Tuning,如下图高亮⑤所示;数据路径保持/workspace/llamafactory/data,如下图高亮⑥所示;数据集选择平台已预置的fin_mme,如下图高亮⑦所示。

    SwanLab对比图

点击“设置/常规”,即可获取API Key,示例如下图所示。 SwanLab是一款开源且轻量级的AI模型训练可视化追踪工具。在本次微调任务中,我们将使用SwanLab记录整个微调过程。在开始之前,请确保您已经登录SwanLab平台。登录后,点击“设置/常规”,即可获取API Key,示例如下图所示。

  1. (可选)其余参数可根据实际需求调整,具体说明可参考参数说明,本实践中的其他参数均保持默认值。

  2. 参数配置完成后,点击“开始”按钮启动微调任务。页面底部将实时显示微调过程中的日志信息,例如下图高亮①所示;同时展示当前微调进度及Loss变化曲线。经过多轮微调后,例如下图高亮②所示,从图中可以看出Loss逐渐趋于收敛。微调完成后,系统提示“训练完毕”,例如下图高亮③所示。

    SwanLab对比图

  1. 切换至“chat”界面,如下图高亮①所示;选择上一步骤已经训练完成的检查点路径,如下图高亮②所示;单击“加载模型”按钮,微调的模型加载后,在系统提示词处填入提示词,如下图高亮③所示;上传图片后输入用户模拟词“Describe the overall change in trend of revenue presented in the chart”,观察模型回答,如下图高亮⑤所示。

    SwanLab对比图

通过对比微调模型与原生模型的输出结果可以发现,微调后的模型在图表读取上表现出更强的契合度,其回答不仅更贴近系统预设的角色定位,也更符合用户的认知预期。

  1. 切换至“Evaluate & Predict”页面,选择微调后模型的检查点路径,例如下图高亮①所示;然后选择平台预置的fin_mme数据集,并根据实际需求配置评估参数(本实践的参数设置如下图所示)。

    SwanLab对比图

  2. 参数配置完成后,点击“开始”按钮即可启动评估,页面底部将实时显示评估过程中的日志信息,评估完成后,记录评估结果,结果如下所示。

    {
    "predict_bleu-4": 27.38479177927928,
    "predict_model_preparation_time": 0.0082,
    "predict_rouge-1": 46.59722225225225,
    "predict_rouge-2": 0.07882882882882883,
    "predict_rouge-l": 46.59722225225225,
    "predict_runtime": 475.4967,
    "predict_samples_per_second": 18.673,
    "predict_steps_per_second": 2.334
    }

    结果解读:该模型在语义覆盖(ROUGE-1)、句法连贯性(ROUGE-L)和短语匹配(ROUGE-2)方面均有良好表现,相较原生模型评估BLEU-4=6.66,有了明显改进,该版本已具备使用基础。

对比微调后模型评估与原生模型评估结果可以看出,二者在生成质量方面存在显著差异。原生模型表现较差,不仅生成质量相关指标全面偏低(BLEU-4: 6.66ROUGE-1: 16.22ROUGE-2:0.0002,ROUGE-L:15.52),其在生成内容与参考答案在词汇、短语及句子结构层面匹配度低,语言连贯性和语义准确性不足。而微调后模型在相同评估条件下有明显提升,生成质量上,BLEU-4:27.38ROUGE-1:46.60ROUGE-2ROUGE-L也分别达到0.007946.60,显示出更优的关键词覆盖能力、短语搭配合理性和句级语义连贯性。表明微调后的模型显著增强了语言生成质量。综上,微调后的模型生成性能上远优于原生模型,具备更好的应用潜力。

总结

用户可通过LLaMA Factory Online平台预置的模型及数据集完成快速微调与效果验证。从上述实践案例可以看出,基于Llama3.2-11B-Vision-Instruct模型,采用LoRA方法在fin_mme金融数据集上进行指令微调后,模型在处理文本、数据和视觉输入(如财报、市场指标、K线图等),输出包括财务分析、风险提示、趋势解读等结构化洞察等方面均有显著提升。

本实践构建自动化投研、合规审查、可视化报告生成系统提供了可复用的技术路径,适用于投行、资管和企业财务等场景。未来可进一步探索多模态输入输出、强化实时数据联动能力、优化长周期时序分析能力,构建行业细分场景的适配性,增强模型的可解释性和可追溯性。