LLM 학습 데이터 파이프라인 플랫폼
원시 데이터를 고품질 LLM 학습 데이터로 변환하는 매니페스트 기반 데이터 파이프라인. YAML 선언적 정의로 재현 가능한 데이터 처리를 수행합니다.
Open SourceEulerWeave가 제공하는 세 가지 핵심 축: 데이터 소스, 처리 블록, 프로덕션 출력
용도에 맞는 트랙을 선택하여 데이터를 처리합니다
| 트랙 | 용도 | 설명 |
|---|---|---|
pretrain |
사전학습 | 웹 크롤 데이터 정규화 및 정제 |
sft |
지도학습 | PDF/문서를 QnA 학습 데이터로 변환 |
dpo |
선호도 학습 | 비교 데이터를 DPO 포맷으로 준비 |
명령 한 줄로 데이터 파이프라인을 생성, 검증, 실행합니다
EulerWeave CLI 주요 명령어 목록
| 명령어 | 설명 |
|---|---|
eulerweave new |
새 매니페스트 YAML 생성 |
eulerweave validate |
매니페스트 유효성 검사 |
eulerweave plan |
실행 계획 및 예상 비용 미리보기 |
eulerweave run |
파이프라인 실행 |
eulerweave export |
결과를 다양한 포맷으로 내보내기 |
eulerweave plugins list |
설치된 플러그인 목록 |
eulerweave plugins doctor |
플러그인 진단 |
EulerWeave에 포함된 17+ 데이터 처리 블록
| 블록 | 용도 |
|---|---|
normalize_text |
공백 정리, 인코딩 정규화 |
heuristic_filter |
길이 및 품질 기반 필터링 |
| 블록 | 용도 |
|---|---|
dedup_minhash |
MinHash 기반 근사 중복 제거 |
dedup_exact |
SHA-256 정확 중복 제거 |
| 블록 | 용도 |
|---|---|
build_sft_messages |
필드 매핑으로 SFT 포맷 생성 |
build_sft_qna |
LLM 기반 다중 QnA 생성 |
build_langextract_qna |
LangExtract 방식 QnA 생성 |
| 블록 | 용도 |
|---|---|
metrics_text_basic |
길이 분포, 문자셋 통계 |
metrics_text_repetition |
n-gram 중복 감지 |
metrics_text_gibberish |
기블리시 및 인코딩 이상 감지 |
metrics_text_boilerplate |
웹 보일러플레이트 감지 |
metrics_perplexity |
Transformers 기반 텍스트 품질 |
metrics_pii_detect |
이메일, 전화, SSN, 카드번호 감지 |
metrics_token_stats |
토큰화 통계 |
metrics_record_schema_validate |
데이터 무결성 검증 |
| 블록 | 용도 |
|---|---|
filter_pii_redact |
PII 감지 및 마스킹 |
export_jsonl |
JSONL 출력 |
export_parquet |
Parquet 출력 |
export_mds |
MDS 스트리밍 포맷 |
단계별 가이드로 EulerWeave를 빠르게 익히세요
튜토리얼은 공개 예정입니다.
PDF에서 SFT 학습 데이터를 생성하는 전체 파이프라인 매니페스트
EulerWeave를 설치하고 첫 번째 파이프라인을 실행하세요
Python 3.11+