Plataforma de Pipeline de Datos de Entrenamiento LLM
Un pipeline de datos basado en manifiestos que transforma datos sin procesar en datos de entrenamiento LLM de alta calidad. Realice procesamiento de datos reproducible con definiciones declarativas en YAML.
Open SourceLos tres pilares fundamentales de EulerWeave: Fuentes de Datos, Bloques de Procesamiento, Salidas de Produccion
Seleccione la pista adecuada segun su caso de uso para procesar datos
| Pista | Uso | Descripcion |
|---|---|---|
pretrain |
Pre-entrenamiento | Normalizacion y refinamiento de datos de rastreo web |
sft |
Ajuste fino supervisado | Convertir PDFs/documentos en datos de entrenamiento QnA |
dpo |
Aprendizaje de preferencias | Preparar datos de comparacion en formato DPO |
Cree, valide y ejecute pipelines de datos con un solo comando
Lista de comandos principales de EulerWeave CLI
| Comando | Descripcion |
|---|---|
eulerweave new |
Crear un nuevo manifiesto YAML |
eulerweave validate |
Validar el manifiesto |
eulerweave plan |
Vista previa del plan de ejecucion y costo estimado |
eulerweave run |
Ejecutar el pipeline |
eulerweave export |
Exportar resultados en varios formatos |
eulerweave plugins list |
Lista de plugins instalados |
eulerweave plugins doctor |
Diagnostico de plugins |
17+ bloques de procesamiento de datos incluidos en EulerWeave
| Bloque | Uso |
|---|---|
normalize_text |
Limpieza de espacios, normalizacion de codificacion |
heuristic_filter |
Filtrado basado en longitud y calidad |
| Bloque | Uso |
|---|---|
dedup_minhash |
Deduplicacion aproximada basada en MinHash |
dedup_exact |
Deduplicacion exacta SHA-256 |
| Bloque | Uso |
|---|---|
build_sft_messages |
Generacion de formato SFT mediante mapeo de campos |
build_sft_qna |
Generacion de QnA multiturno basada en LLM |
build_langextract_qna |
Generacion de QnA estilo LangExtract |
| Bloque | Uso |
|---|---|
metrics_text_basic |
Distribucion de longitud, estadisticas de conjunto de caracteres |
metrics_text_repetition |
Deteccion de duplicacion n-gram |
metrics_text_gibberish |
Deteccion de gibberish y anomalias de codificacion |
metrics_text_boilerplate |
Deteccion de boilerplate web |
metrics_perplexity |
Puntuacion de calidad de texto basada en Transformers |
metrics_pii_detect |
Deteccion de correo electronico, telefono, SSN, tarjeta de credito |
metrics_token_stats |
Estadisticas de tokenizacion |
metrics_record_schema_validate |
Validacion de integridad de datos |
| Bloque | Uso |
|---|---|
filter_pii_redact |
Deteccion y enmascaramiento de PII |
export_jsonl |
Salida JSONL |
export_parquet |
Salida Parquet |
export_mds |
Formato de streaming MDS |
Aprenda EulerWeave rapidamente con guias paso a paso
Tutoriales próximamente.
Un manifiesto de pipeline completo que genera datos de entrenamiento SFT a partir de PDF
Instale EulerWeave y ejecute su primer pipeline
Python 3.11+
Codigo abierto, definiciones declarativas en YAML, procesamiento de datos reproducible.
Comenzar en GitHub Contactenos