数据集生成

更新时间：2026-04-09 17:50:25

数据生成主要是为大模型训练或微调提供不同类型的数据生成方案，页面提供了两个核心工具：

GraphGen：基于知识图谱自动生成多跳专业问答对，专注于为垂直领域的大模型注入精准知识，帮助模型攻克复杂推理类难题。
FastDatasets：通过解析文档并结合模板批量生成指令数据，旨在快速构建通用大模型的指令遵循能力，从而大幅提升数据生成的准确率与效率。

用户可根据自身需求，选择适合的数据生成工具，以支持后续模型训练或优化工作。

前提条件

您已经获取LlamaFactory Online账户和密码，如果需要帮助或尚未注册，可参考注册账户完成注册。
如果您调用Baicai Infer（白菜AIGC）API服务，请确保账户余额足以支付调用费用，详情请参考计费规则、账户充值。使用其他模型API服务时，请确保该服务处于可用状态。

概览

在数据生成界面，您可以选择使用GraphGen或FastDatasets生成所需的数据集，页面如下图所示。

数据处理

操作步骤

启动任务

GraphGen
FastDatasets

GraphGen首先基于源文本构建细粒度知识图谱，利用期望校准误差指标识别大模型的知识缺口，优先生成高价值长尾知识的问答对。此外，它通过多跳邻域采样捕获复杂关系，并结合风格控制生成，丰富问答数据的多样性。

使用已注册的LlamaFactory Online账号登录平台，选择[数据与模型/数据生成]菜单项，进入数据生成工具选择页面，选择“GraphGen”，例如下图所示。

在GraphGen数据生成页面配置各参数，参数详情请参考下表，配置页面如下图所示。

数据处理

参数配置信息如下表所示：

序号	参数项	说明
1	模型来源	选择模型的服务提供商。 - 您可选择“Baicai Infer”作为生成数据集调用API服务的模型，该来源主要支持的模型有：Qwen2.5-32B-Instruct、Qwen3-32B以及Qwen2.5-VL-32B-Instruct。 - 您可选择“其它”模型来源，该来源需要您配置模型的`模型地址（BaseURL/v1）`、`model`以及调用模型的`API Key`，例如下图所示。
2	上传方式	选择GraphGen生成数据集的源文本， - 您可选择通过“本地上传”上传本地文件。 - 您也可以选择“从文件管理选择”，例如下图所示。
3	生成的数据集名称	用户自定义生成数据集的名称，例如：“Sudongpo”。
4	文本分块配置	- 分块大小 (Chunk Size)：设定将长文本切分成的每个片段的最大Token数量，以便模型能够处理。 - 分块重叠 (Chunk Overlap)：设定相邻文本块之间重复内容的长度，以保持上下文语义的连贯性。
5	知识图谱分区配置	- 分区方法 (Partition Method)：选择用于构建知识图谱时对数据进行分区的特定算法策略。 - ECE最大单元数 (ECE Max Units)：限制每个分区中包含的最大单元（如句子或段落）数量，以防分区过大。 - ECE最小单元数 (ECE Min Units)：限制每个分区中包含的最小单元数量，以确保分区内容有足够信息量。 - ECE最大token数 (ECE Max Tokens)：限制每个分区内文本内容的总Token数量上限，以适配模型的上下文窗口。 - ECE单元采样策略 (ECE Unit Sampling Strategy)：定义从大量单元中选取数据构建分区时所采用的具体策略（如随机选取）。

提示

本地上传文件支持CSV、JSON、JSONL、PDF、TXT格式，且文件大小不超过100MB。
用户上传的文件将存储于user-data/upload目录，系统通过上传时间戳对文件进行区分。

完成参数配置后，点击“立即启动”即可初始化数据生成任务。系统将自动跳转至[任务中心/数据生成]列表页面，如下图所示。

FastDatasets首先通过文档解析精准提取源文本内容，再利用模板批量生成标准化指令数据，快速构建通用大模型的指令遵循能力。此外，它通过优化数据处理流程与生成策略，在提升数据准确性的同时，大幅增强数据生产的整体效率。

使用已注册的LlamaFactory Online账号登录平台，选择[数据与模型/数据生成]菜单项，进入数据生成工具选择页面，选择“FastDatasets”，例如下图所示。

在FastDatasets数据生成页面配置各参数，参数详情请参考下表，配置页面如下图所示。

数据处理

参数配置信息如下表所示：

序号	参数项	说明
1	模型来源	选择模型的服务提供商。 - 您可选择“Baicai Infer”作为生成数据集调用API服务的模型，该来源主要支持的模型有：Qwen2.5-32B-Instruct、Qwen3-32B以及Qwen2.5-VL-32B-Instruct。 - 您可选择“其它”模型来源，该来源需要您配置模型的`模型地址（BaseURL/v1）`、`model`以及调用模型的`API Key`，例如下图所示。
2	上传方式	选择FastDatasets生成数据集的源文本， - 您可选择通过“本地上传”上传本地文件。 - 您也可以选择“从文件管理选择”，例如下图所示。
3	生成的数据集名称	用户自定义生成数据集的名称，例如：“Sudongpo”。
4	参数设置	- 最小分块长度：设定文本切片的最短字符限制（200），防止片段过短导致语义缺失。 - 最大分块长度：设定文本切片的最长字符限制（1000），确保片段适合模型处理且不过载。 - 每块问题数：指定针对每一个文本切片需要生成的问答对数量（2个），控制数据生成的密度。- 输出格式：指定生成数据的文件结构标准（Alpaca），以适配特定模型的微调训练需求。