EulerForge 튜토리얼
전체 튜토리얼
- 시작 가이드
- 0. 데이터 전처리
- 1. Dense LoRA
- 2. Mixture-of-LoRAs
- 3. MoE Expert LoRA (Dense → MoE 변환)
- 4. Native MoE Expert LoRA (Mixtral)
- 5. DPO 훈련
- 6. ORPO 훈련
- 7. Reward Model (RM) 훈련
- 8. PPO (RLHF) 훈련
- 9. MoE 안정성과 검증
- 10. 메트릭 모니터링
- 11. 추론 벤치마크
- 12. 하이퍼파라미터 탐색 (Grid / Random / Bayes)
- 13. LLaMA 파인튜닝
- 14. LoRA Handoff 스케줄링
- 15. 모델 로딩
- 16. HuggingFace Export
- 17. 스크래치 사전훈련
- 18. 훈련 파이프라인 (SFT → PPO)
- 19. 대규모 학습 데이터 수집
- 20. Lab: 수학/코딩 강화 모델
- 21. Lab: Thinking 모델
- 22. Lab: 한국어 금융 Copilot
- 23. Lab: MoE 풀 파이프라인 (SFT → DPO → RM → PPO)
GitHub 저장소: https://github.com/eulerwa/eulerforge