EulerPress

Herramienta de Traduccion Empresarial & Conversion de Datos de Entrenamiento IA

Una herramienta de traduccion CLI Local-First que traduce con precision solo el texto en prosa, preservando perfectamente bloques de codigo, expresiones matematicas y URLs. Desde la localizacion de documentos empresariales hasta la traduccion de datos JSONL para entrenamiento de IA, todo en un solo pipeline.

Open Source

Funciones Principales

Traduccion inteligente de documentos sin tocar codigo ni formulas

Traduccion con Preservacion Precisa

El parser compatible con CommonMark basado en markdown-it-py identifica y preserva automaticamente bloques de codigo, codigo en linea, formulas, frontmatter y HTML crudo. Solo se traduce el texto en prosa.

Formatos Soportados Markdown, HTML, Plain Text, JSONL
Elementos Preservados Bloques de codigo, codigo en linea, formulas ($...$, $$...$$), URLs, frontmatter
Parser markdown-it-py (CommonMark 100%), BeautifulSoup4 (HTML)

Arquitectura Local-First

Utiliza Ollama LLM local como motor de traduccion predeterminado. Los documentos confidenciales no salen de su red. Tambien soporta OpenAI API opcionalmente.

Motor de Traduccion Ollama (local), OpenAI (opcional)
Seguridad de Datos Todo el procesamiento es local, sin transmision externa
Configuracion Configuracion declarativa YAML, soporte de override CLI

Traduccion de Datos de Entrenamiento IA

Pipeline dedicado para traducir datos de entrenamiento JSONL a gran escala

Pipeline Traindata

El comando eulerpress traindata traduce datos de entrenamiento JSONL a alta velocidad mediante solicitudes HTTP concurrentes con Ollama.

  • Preservacion de Formulas: Protege $...$, $$...$$, \(...\), \[...\] con marcadores y los restaura.
  • Procesamiento Concurrente: Multi-worker basado en ThreadPoolExecutor, traduccion paralela por registro.
  • Salida Incremental: Escribe al archivo inmediatamente al completar cada registro, preservando resultados ante interrupciones.
  • Reanudacion: Omite registros ya traducidos y solo procesa los nuevos.

Garantia de Calidad

Verifica automaticamente la calidad de las traducciones y marca resultados problematicos.

  • Validacion de Traduccion: Ratio de longitud, deteccion de solo numeros, verificacion de marcadores.
  • Puntuacion de Preservacion: Deteccion de corrupcion en bloques de codigo, formulas y URLs.
  • Chunking Automatico: Divide textos largos por limites de oracion para mantener la calidad.
  • Busqueda de Glosario: Glosario de dominio basado en Tavily para traducciones consistentes.

Referencia CLI

5 comandos principales para el flujo completo de traduccion de documentos

translate

Traduce documentos segun archivo de configuracion YAML. Permite override de directorio fuente, idioma destino y modelo via CLI.

traindata

Traduce datos de entrenamiento JSONL concurrentemente con Ollama. Soporta preservacion de formulas, salida incremental y reanudacion.

validate

Valida archivo de configuracion YAML sin ejecutar. Imprime errores en formato de 3 lineas si hay problemas.

plan

Ejecucion en seco: previsualiza cantidad de archivos, segmentos y tokens estimados.

doctor

Verifica dependencias del sistema (binario Ollama, conexion al servidor, modelos disponibles).

Arquitectura

Diseno modular para extender formatos, motores y garantia de calidad independientemente

config.yaml → Loader → Validator → EulerPressConfig ↓ Translator ├── discover_files() ├── for each file: │ ├── get_parser(ext) → Parser │ ├── parser.parse() → [Segment] │ ├── provider.translate(chunks) │ └── parser.render(segments) → output └── write output (mirror structure)

Estructura de Paquetes

configEsquema YAML, carga, validacion
parsersParsers de Markdown, HTML, texto plano
engineProveedores de traduccion (Ollama, OpenAI, Fake)
coreOrquestador, planificador, doctor, errores
scoringPuntuacion de calidad, seleccion de modelo, evaluacion API
traindataTraduccion de datos JSONL (procesamiento concurrente Ollama)
glossaryBusqueda de glosario de dominio (Tavily)

Especificaciones Tecnicas

LenguajePython 3.12+
Parser Markdownmarkdown-it-py + mdformat (CommonMark 100%)
Parser HTMLBeautifulSoup4 + lxml
Motor de TraduccionOllama (local), OpenAI (nube)
Estrategia de Chunkingsentence, whitespace, hard
Formato de ErrorFormato de 3 lineas (Category / Fix / See)
LicenciaMIT (incluye todas las dependencias)

Tutoriales

Aprenda EulerPress rapidamente con guias paso a paso

Tutoriales proximamente.

Instalacion e Inicio

Instale EulerPress y comience su primera traduccion

Instalacion

pip install eulerpress

# Instalar Ollama LLM local
ollama pull gemma3:27b

Requisitos

Python 3.12+

Ollama (para traduccion local)

Automatice la traduccion de documentos con EulerPress

Local-first, preservacion de codigo, calidad empresarial.

Comenzar en GitHub Contactenos