EulerWeave 튜토리얼
단계별 가이드로 EulerWeave를 빠르게 익히세요
전체 튜토리얼
- 튜토리얼 0: 설치 및 개발 환경 설정
eulerweave를 설치하고 개발 환경을 구성하는 방법을 안내합니다. - 튜토리얼 1: 빠른 시작 —
new에서export까지
매니페스트를 생성하고, 검증하고, 실행하여 JSONL 파일을 출력하는 전체 라이프사이클을 안내합니다. - 튜토리얼 2: PDF 문서 → SFT 훈련 데이터
로컬 PDF 문서를 파이프라인으로 처리하여 SFT용 QnA 훈련 데이터를 생성합니다. - 튜토리얼 3: HuggingFace 데이터셋 → SFT 훈련 데이터
HuggingFace에서 공개 데이터셋을 다운로드하고 SFT 훈련 데이터로 변환합니다. - 튜토리얼 4: SFT 트랙 심화 — 세 가지 빌더 블록
SFT 트랙의 세 가지 태스크 빌딩 블록을 상세히 비교합니다. - 튜토리얼 5: 추출기 플러그인 개발
내장 추출기의 구조를 이해하고 커스텀 추출기 플러그인을 만드는 방법을 설명합니다. - 튜토리얼 6: 매니페스트 검증 — 흔한 실수와 오류 메시지
매니페스트 검증 시 흔한 실수와 오류 메시지, 수정 방법을 설명합니다. - 튜토리얼 7: MDS 내보내기 — Mosaic Data Shard 형식
MDS (Mosaic Data Shard) 형식으로 훈련 데이터를 내보내는 방법을 설명합니다. - 튜토리얼 8: 메트릭 블록 사용하기
파이프라인 실행 중 데이터셋 품질 통계를 자동으로 수집하는 메트릭 블록을 사용합니다. - 튜토리얼 09: 원격 입력 (Remote Inputs)
HuggingFace, HTTPS, S3 등 원격 소스에서 데이터를 가져와 파이프라인을 실행합니다. - 튜토리얼 10: Perplexity 메트릭 — HuggingFace Transformers 기반 텍스트 품질 점수
HuggingFace Transformers를 사용하여 텍스트별 perplexity를 계산합니다. - 튜토리얼 11: PII 안전
학습 데이터에서 개인 식별 정보(PII)를 탐지하고 마스킹합니다. - 튜토리얼 12: 불량 레코드 디버깅
빈 텍스트, null 필드 등 불량 레코드를 자동 감지하고 디버그합니다.