LLM 训练数据管线平台
基于清单驱动的数据管线,将原始数据转化为高质量 LLM 训练数据。通过 YAML 声明式定义实现可复现的数据处理。
Open SourceEulerWeave 提供的三大核心支柱:数据源、处理模块、生产级输出
根据用途选择合适的轨道来处理数据
| 轨道 | 用途 | 说明 |
|---|---|---|
pretrain |
预训练 | 网页爬取数据的规范化与精炼 |
sft |
监督微调 | 将 PDF/文档转换为 QnA 训练数据 |
dpo |
偏好学习 | 将对比数据准备为 DPO 格式 |
一行命令即可创建、验证和运行数据管线
EulerWeave CLI 主要命令列表
| 命令 | 说明 |
|---|---|
eulerweave new |
创建新清单 YAML |
eulerweave validate |
验证清单有效性 |
eulerweave plan |
预览执行计划和预估成本 |
eulerweave run |
运行管线 |
eulerweave export |
将结果导出为多种格式 |
eulerweave plugins list |
已安装插件列表 |
eulerweave plugins doctor |
插件诊断 |
EulerWeave 包含的 17+ 数据处理模块
| 模块 | 用途 |
|---|---|
normalize_text |
空白清理、编码规范化 |
heuristic_filter |
基于长度和质量的过滤 |
| 模块 | 用途 |
|---|---|
dedup_minhash |
基于 MinHash 的近似去重 |
dedup_exact |
SHA-256 精确去重 |
| 模块 | 用途 |
|---|---|
build_sft_messages |
通过字段映射生成 SFT 格式 |
build_sft_qna |
基于 LLM 的多轮 QnA 生成 |
build_langextract_qna |
LangExtract 方式 QnA 生成 |
| 模块 | 用途 |
|---|---|
metrics_text_basic |
长度分布、字符集统计 |
metrics_text_repetition |
n-gram 重复检测 |
metrics_text_gibberish |
乱码及编码异常检测 |
metrics_text_boilerplate |
网页样板内容检测 |
metrics_perplexity |
基于 Transformers 的文本质量评分 |
metrics_pii_detect |
邮箱、电话、SSN、信用卡号检测 |
metrics_token_stats |
分词统计 |
metrics_record_schema_validate |
数据完整性验证 |
| 模块 | 用途 |
|---|---|
filter_pii_redact |
PII 检测与脱敏 |
export_jsonl |
JSONL 输出 |
export_parquet |
Parquet 输出 |
export_mds |
MDS 流式格式 |
教程即将公开。
从 PDF 生成 SFT 训练数据的完整管线清单
安装 EulerWeave 并运行您的第一条管线
Python 3.11+