EulerWeave

LLM 学習データパイプラインプラットフォーム

生データを高品質な LLM 学習データに変換するマニフェスト駆動型データパイプライン。YAML 宣言的定義により再現可能なデータ処理を実行します。

Open Source

主要機能

EulerWeave が提供する3つのコア:データソース、処理ブロック、プロダクション出力

多様なデータソース

  • ローカル: JSONL, CSV, Parquet, TXT, HTML, PDF
  • リモート: HuggingFace Datasets, HuggingFace Hub, HTTPS, AWS S3
  • 拡張可能なプラグインシステム

17+ データ処理ブロック

  • 正規化とフィルタリング: normalize_text, heuristic_filter
  • 重複排除: MinHash, SHA-256
  • SFT タスクビルド: LLM ベースの QnA 生成
  • 13+ メトリクスブロック: パープレキシティ、PII、繰り返し、ギブリッシュなど
  • PII 検出とマスキング

プロダクション対応出力

  • JSONL: OpenAI Chat フォーマット互換
  • Parquet: 大規模分析用
  • MDS/StreamingDataset: 分散学習に最適化
  • 互換性: Ollama, vLLM, TRL, HuggingFace Transformers

パイプライントラック

用途に合わせたトラックを選択してデータを処理します

トラック 用途 説明
pretrain 事前学習 Web クロールデータの正規化と精製
sft 教師あり微調整 PDF/ドキュメントを QnA 学習データに変換
dpo 選好学習 比較データを DPO フォーマットに準備

CLI クイックスタート

コマンド一つでデータパイプラインを作成、検証、実行します

# 新しいマニフェストを作成
eulerweave new manifest.yaml --track sft

# マニフェストを検証
eulerweave validate manifest.yaml

# 実行計画をプレビュー
eulerweave plan manifest.yaml --records 10000

# パイプラインを実行
eulerweave run manifest.yaml --input data/train.jsonl --artifacts ./artifacts

# MDS フォーマットでエクスポート
eulerweave export mds out/result.jsonl ./output/mds/ --shard-size 2000

# プラグイン一覧
eulerweave plugins list

CLI リファレンス

EulerWeave CLI 主要コマンド一覧

コマンド 説明
eulerweave new 新しいマニフェスト YAML を作成
eulerweave validate マニフェストのバリデーション
eulerweave plan 実行計画と予想コストのプレビュー
eulerweave run パイプラインの実行
eulerweave export 結果を様々なフォーマットでエクスポート
eulerweave plugins list インストール済みプラグイン一覧
eulerweave plugins doctor プラグイン診断

組み込みブロック一覧

EulerWeave に含まれる 17+ データ処理ブロック

正規化とフィルタリング

ブロック 用途
normalize_text 空白整理、エンコーディング正規化
heuristic_filter 長さと品質に基づくフィルタリング

重複排除

ブロック 用途
dedup_minhash MinHash ベースの近似重複排除
dedup_exact SHA-256 完全重複排除

タスクビルド (SFT)

ブロック 用途
build_sft_messages フィールドマッピングで SFT フォーマット生成
build_sft_qna LLM ベースのマルチターン QnA 生成
build_langextract_qna LangExtract 方式の QnA 生成

メトリクス

ブロック 用途
metrics_text_basic 長さ分布、文字セット統計
metrics_text_repetition n-gram 重複検出
metrics_text_gibberish ギブリッシュおよびエンコーディング異常検出
metrics_text_boilerplate Web ボイラープレート検出
metrics_perplexity Transformers ベースのテキスト品質スコアリング
metrics_pii_detect メール、電話、SSN、クレジットカード番号検出
metrics_token_stats トークン化統計
metrics_record_schema_validate データ整合性検証

PII とエクスポート

ブロック 用途
filter_pii_redact PII 検出とマスキング
export_jsonl JSONL 出力
export_parquet Parquet 出力
export_mds MDS ストリーミングフォーマット

チュートリアル

ステップバイステップガイドで EulerWeave を素早く習得しましょう

韓国語版チュートリアル | English Tutorials

チュートリアルは近日公開予定です。

マニフェスト例

PDF から SFT 学習データを生成する完全なパイプラインマニフェスト

version: 1 track: sft inputs: - type: pdf uri: data/technical_manual.pdf options: strategy: auto pipeline: - id: normalize type: normalize_text slot: normalize - id: filter type: heuristic_filter slot: filter params: min_length: 100 - id: dedup type: dedup_exact slot: dedup - id: qna type: build_sft_qna slot: build_task params: model: "qwen3:32b" base_url: "http://localhost:11434" - id: export type: export_jsonl slot: export exports: - type: jsonl path: out/training_data.jsonl

インストールと始め方

EulerWeave をインストールして最初のパイプラインを実行しましょう

インストール

pip install eulerweave

# 全機能インストール
pip install eulerweave[pdf,llm,parquet]

要件

Python 3.11+

EulerWeave でデータパイプラインを始めましょう

オープンソース、YAML 宣言的定義、再現可能なデータ処理。

GitHub で始める お問い合わせ