7. 스킬 레벨 아키텍처 워크스루
이 튜토리얼은 configs/presets/arch_*.yml 에 있는 20 개 프리셋을 초급 → 중급 →
고급 → 전문가 순서로 따라가며 현대 LLM 아키텍처의 진화를 이해하는 것을 목표로
합니다. 모든 프리셋의 파라미터 규모는 약 1–2B 로 맞춰져 있어, 크기 효과가 아닌
아키텍처 선택의 효과 에만 집중할 수 있습니다.
왜 한 단계에 여러 프리셋이 있는가
각 단계(초급/중급/고급/전문가)마다 경쟁 관계의 접근법이 여러 개 존재합니다. 어떤 접근이 왜 좋은지를 이해하려면, 같은 단계 안에서 대안들과 직접 비교해야 합니다. 대표적인 비교 축은 다음과 같습니다.
- 중급 단계: Mistral 의 1:3 sliding 과 Gemma2 의 1:1 alternating, Qwen 의 RoPE scaling 은 모두 "attention 비용을 줄이면서 긴 문맥 처리" 라는 같은 목표에 대한 세 가지 다른 답입니다.
- 고급 단계: Jamba 의 3:1 하이브리드, Samba 의 1:1 하이브리드, Pure RetNet 은 모두
"
O(N²)병목을 어떻게 탈출할 것인가" 라는 질문에 대한 서로 다른 답입니다.
각 단계를 읽으면서 "왜 이렇게 설계했는가" 의 질문에 논문 근거로 답할 수 있게 되는 것이 이 튜토리얼의 목적입니다.
시작하려면 다음 명령들로 프리셋을 탐색합니다.
eulerstack presets list # 전체 목록 + 파라미터
eulerstack explain --preset configs/presets/arch_beginner_gpt2.yml
eulerstack validate --preset configs/presets/arch_beginner_gpt2.yml --report
eulerstack compile --preset configs/presets/arch_beginner_gpt2.yml --output-dir ./out/gpt2
단계 1: BEGINNER — 출발점 이해
이 단계의 목표는 가장 기본적인 구성 요소(attention, FFN, norm, positional encoding) 가 어떻게 조립되어 하나의 Transformer 를 이루는지 를 이해하는 것입니다.
1-A. arch_beginner_gpt2 — Classic Vanilla Transformer (2019 baseline)
GPT-2 시대의 고전적 선택을 그대로 재현:
- Multi-Head Attention (GQA 없음, n_kv_heads = n_heads)
- LayerNorm, post-norm (residual 이후 정규화)
- MLP + GeLU (게이팅 없음)
- qkv_bias: true (고전 Transformer 는 bias 포함)
norm: { type: layernorm, position: post }
ffn: { type: mlp, activation: gelu }
mixer:
attention:
qkv_bias: true
이 프리셋이 출발점인 이유는 현대 LLM 들이 무엇을 바꿨는지 를 이해하기 위해 "바꾸기 전" 의 모습을 먼저 알아야 하기 때문입니다. GPT-2 에서 Llama 로 오는 동안 어떤 설계가 어떻게 개선되었는지 이후 섹션에서 하나씩 대비해갑니다.
근거: Vaswani et al. 2017; Radford et al. 2019 (GPT-2); Ba et al. 2016 (LayerNorm).
1-B. arch_beginner_llama — Modern Baseline (2023 standard)
Llama 2/3 시대의 표준 설정:
- Grouped-Query Attention (n_kv_heads < n_heads) — KV 캐시 절약
- RMSNorm, pre-norm (residual 전에 정규화) — 훈련 안정성
- Gated MLP + SwiGLU (gate × up projection) — 표현력 향상
- qkv_bias: false (2020년대 표준)
norm: { type: rmsnorm, position: pre }
ffn: { type: gated_mlp, activation: swiglu }
model: { n_heads: 16, n_kv_heads: 4 } # 4:1 GQA
핵심 비교: 1-A 와 1-B 의 차이
| 축 | Classic (GPT-2) | Modern (Llama) | 이득 |
|---|---|---|---|
| Norm 종류/위치 | LayerNorm, post | RMSNorm, pre | 훈련 안정성 |
| FFN | MLP + GeLU | Gated MLP + SwiGLU | 표현력 |
| Attention head 공유 | MHA (모두 독립) | GQA (4:1) | KV 캐시 75% 절약 |
| Bias | 있음 | 없음 | 파라미터 절약 |
직접 해보기 좋은 실습은 두 프리셋을 explain 으로 출력해 어떤 필드가 달라지는지
직접 눈으로 비교하는 것입니다. 두 출력을 나란히 놓으면 "현대 LLM 의 변경점" 이
한눈에 들어옵니다.
단계 2: INTERMEDIATE — Attention 의 한계를 부드럽게 밀어내기
단계 1 의 모든 레이어는 O(N²) attention 을 사용합니다. 중급 단계는 attention 을
유지하면서 비용을 구조적으로 줄이는 세 가지 접근을 비교합니다.
2-A. arch_intermediate_mistral — Sparse Global + Dense Local (1:3)
4 개 레이어 중 1 개만 전역(global) attention 을 유지하고, 나머지 3 개는 4,096 토큰 크기의 슬라이딩 윈도우 attention 을 사용합니다. 이 설계로 전체 KV 캐시 크기가 약 4 배 감소하며, 전역 문맥 이해 능력은 주기적으로 나타나는 global 레이어가 담당합니다.
layer_schedule:
- { template: global_attn, repeat: 1 }
- { template: sliding_attn, repeat: 3 } # window: 4096
# ... 반복
근거: Jiang et al. 2023 (Mistral 7B). Beltagy et al. 2020 (Longformer).
2-B. arch_intermediate_gemma2 — Alternating Global:Local (1:1)
매 레이어마다 global 과 local 을 교대로 배치합니다. Mistral 보다 전역 레이어의 밀도가 2 배 높기 때문에 전역 추론이 더 자주 일어나지만, 대신 KV 캐시 절약 효과는 덜 공격적입니다.
layer_schedule:
- { template: global_attn, repeat: 1 }
- { template: local_attn, repeat: 1 } # window: 4096
# ... 교대
근거: Team Gemma, 2024 (Gemma 2, Google DeepMind).
2-C. arch_intermediate_qwen_longctx — RoPE Scaling 으로 장문 확장
Attention 구조 자체는 건드리지 않고 위치 인코딩만 조정해 더 긴 문맥을 처리합니다.
embedding:
positional: rope
rope_theta: 1000000.0 # Llama 는 500000
rope_scaling: { type: linear, factor: 4.0 }
model:
max_seq_len: 32768
같은 attention 을 쓰되 RoPE 를 4 배 외삽해 위치 표현력을 확장 하는 방식입니다. 슬라이딩 윈도우 없이도 긴 컨텍스트를 처리할 수 있습니다.
근거: Chen et al. 2023 (Position Interpolation); Qwen 2/3 technical reports.
핵심 비교: 2-A, 2-B, 2-C
| 접근 | 방법 | 어울리는 상황 |
|---|---|---|
| Mistral (1:3) | 로컬 편향 + 주기적 전역 | KV 절약이 최우선일 때 |
| Gemma 2 (1:1) | 전역 밀도를 더 높게 | 문맥 내 정확한 reasoning 이 중요할 때 |
| Qwen (RoPE scaling) | attention 구조 유지, 위치만 확장 | 기존 가중치를 긴 문맥으로 확장할 때 |
직접 해보기 좋은 실습은 이 세 프리셋을 compile --output-dir 로 export 한 뒤 동일한
문서에 forward pass 를 돌려 메모리 사용량을 비교하는 것입니다. 같은 attention 이
어떻게 다른 비용 특성을 가질 수 있는지 수치로 확인할 수 있습니다.
단계 3: ADVANCED — Attention 자체를 교체하기
중급 단계까지는 attention 을 유지하면서 비용만 줄였습니다. 고급 단계는 attention 자체를 부분적으로 또는 전면적으로 교체 하는 세 가지 연구 검증된 대안을 비교합니다.
3-A. arch_advanced_jamba — Mamba + Attention 3:1 Hybrid
전체 레이어의 75% 를 Mamba2 SSM 으로 교체하고, 25% 만 attention 으로 유지합니다.
Mamba 가 O(N) 으로 bulk 토큰 처리를 담당하고, attention 은 "검색 앵커(retrieval
anchor)" 역할을 맡아 in-context recall 능력을 보존합니다.
layer_schedule:
- { template: mamba, repeat: 3 } # mamba2, d_state=128
- { template: attn, repeat: 1 } # global attention
# ... 반복
근거: Lieber et al. 2024 (Jamba, AI21) — 398B total / 94B active MoE 로 SOTA 입증.
3-B. arch_advanced_samba — Mamba + Sliding Window 1:1
Mamba 와 슬라이딩 윈도우 attention 을 1:1 로 교대로 배치합니다. Jamba 가 "attention 을 드물게 쓰는" 전략이라면, Samba 는 "attention 을 국소적으로 쓰는" 전략입니다. 모든 레이어에 attention 이 존재하지만 각 attention 이 저렴하다는 점이 특징입니다.
layer_schedule:
- { template: mamba, repeat: 1 }
- { template: sliding_attn, repeat: 1 } # window: 4096
# ... 교대
근거: Ren et al. 2024 (Samba, Microsoft Research) — "Simple Hybrid SSM for Efficient Unlimited Context".
3-C. arch_advanced_retnet — Pure RetNet (attention 완전 제거)
모든 레이어를 Retention 블록으로 채웁니다. Softmax attention 대신 고정 지수 감쇠 (exponential decay) 를 사용하며, 병렬 / 순환 / 청크 세 모드가 수학적으로 동일한 결과를 내는 것이 핵심 특징입니다. 이 덕분에 훈련 시에는 병렬 모드로, 추론 시에는 순환 모드로 같은 가중치를 그대로 쓸 수 있습니다.
layer_templates:
retnet_block:
mixer:
type: retnet
retnet: { chunkwise: true, chunk_size: 128, rope: true }
layer_schedule:
- { template: retnet_block, repeat: 32 }
근거: Sun et al. 2023 (RetNet, Microsoft) — "Successor to Transformer".
핵심 비교: 3-A, 3-B, 3-C
| 접근 | Attention 비율 | 주요 이득 | 주요 약점 |
|---|---|---|---|
| Jamba (3:1) | 25% global | 긴 문맥 처리량 증가, recall 유지 | Mamba 가 3 층 연속 → 순수 recall 약화 |
| Samba (1:1) | 50% local | 모든 층에 attention 유지, KV 제한 | Attention 비용이 매 층마다 존재 |
| Pure RetNet | 0% | 훈련-추론 모드 일관성 최고 | 하이브리드 아님, 원조 대비 품질 간극 |
이 세 프리셋이 중요한 이유는 "O(N²) 를 어떻게 탈출할 것인가" 라는 질문에 대한 서로
다른 답이기 때문입니다. 어떤 답이 절대적으로 옳은 것은 아니며, 목적 (장문 처리량,
recall 정확도, 훈련 단순성 중 무엇을 우선하는지) 에 따라 유리한 선택이 달라집니다.
단계 4: EXPERT — 연구용 극단 조합과 MoE × Mixer 교차 설계
여기서부터는 프로덕션 이전의 실험 / 연구 탐색 영역입니다. 어떤 조합이 최선인지 아직 열린 문제이며, 이 단계의 프리셋은 크게 두 축을 교차하는 설계 공간을 대표합니다.
- 축 A — 믹서 선택: attention, mamba, retnet, hyena, 그리고 이들의 multi-mixer 조합
- 축 B — MoE 전략: MoE 없음, 1-in-4 부분 MoE, 매 레이어 MoE, fine-grained many-small
두 축이 직교하기 때문에 같은 MoE 전략을 다른 믹서에 얹을 수 있고 그 역도 마찬가지입니다. 아래 9 개 프리셋은 이 2D 설계 공간의 대표 점들입니다.
MoE × Mixer 교차 요약
| 프리셋 | 믹서 | MoE 전략 | 위치 |
|---|---|---|---|
arch_expert_research |
attn + mamba + retnet + hyena | 8 exp / top-2, attn 레이어만 | 다양성 × 부분 MoE |
arch_expert_mixtral_moe |
attn only | 8 exp / top-2, 모든 레이어 | 단일 믹서 × 고밀도 MoE |
arch_expert_striped_hyena |
hyena + attn 4:1 | 없음 (dense FFN) | sub-O(N²) × dense |
arch_expert_blackmamba_moe |
mamba (75%) + attn (25%) | 8 exp / top-2, mamba 레이어만 | 비-attention 믹서에 MoE |
arch_expert_deepseek_moe |
attn only | 32 exp / top-3 (fine-grained), 모든 레이어 | 단일 믹서 × 진보 MoE |
arch_expert_retnet_moe |
retnet only | 8 exp / top-2, 1-in-4 | RetNet × MoE (논문 無 / 예측) |
arch_expert_frontier_full_moe |
mamba + hyena + retnet (attn 없음) | 8 exp / top-2, 모든 레이어 | 가장 실험적 |
arch_expert_progressive_stack |
hyena→mamba→retnet→attn (깊이별 변화) | 마지막 4개 레이어만 MoE | 계층적 점진 복잡도 (논문 無) |
arch_expert_dilated_longnet |
mamba + sw(1K→4K→16K) + global (피라미드) | 마지막 8개 global 레이어만 MoE | Temporal pyramid (논문 無) |
4-A. arch_expert_research — 4 믹서 + MoE, 3-Phase
EulerStack 의 모든 믹서를 한 스택에 섞고 attention 레이어에만 MoE FFN 을 얹은 "최대 다양성" 구성입니다. 깊이별로 세 phase 의 역할 분담을 가집니다.
- Phase 1 (1-8): mamba + hyena — 효율적 벌크 토큰 처리
- Phase 2 (9-24): mamba + retnet + attention/MoE — 깊은 추론 코어
- Phase 3 (25-32): attention/MoE + retnet — 출력 정제
근거: Arora et al. 2024 ("mixture of sequence models wins"); Jamba-1.5 의 3-phase 영감.
4-B. arch_expert_mixtral_moe — Pure Attention + Every-Layer MoE
다른 믹서 없이 순수 attention + 모든 레이어에 MoE FFN (8 experts, top-2) 을 배치합니다. MoE 밀도를 극대화해 conditional compute 의 효과를 고립시킨 실험입니다.
llm_*_moe 와의 차이는 MoE 밀도에 있습니다. llm_*_moe 는 1-in-4 MoE 로 실전 배포용인
반면, 이 프리셋은 모든 레이어가 MoE 인 연구용 극단 설정입니다.
근거: Jiang et al. 2024 (Mixtral 8x7B); Shazeer et al. 2017; Zoph et al. 2022 (router z-loss).
4-C. arch_expert_striped_hyena — Hyena + Attention, 128K 장문
Hyena 장거리 컨볼루션 + 주기적 attention 앵커의 조합으로 128K 토큰 컨텍스트를
지원합니다. MoE 는 사용하지 않으며, Hyena 자체의 sub-O(N²) 효율에 집중합니다.
O(N log N) 컨볼루션이 attention 의 O(N²) 를 대체할 수 있는지 검증하는 실험입니다.
근거: Poli et al. 2023; Together AI 2023 (StripedHyena); Nguyen et al. 2023 (HyenaDNA).
4-D. arch_expert_blackmamba_moe — Mamba + MoE (비-attention 믹서에 MoE 얹기)
MoE 가 attention 전용이 아니라는 것을 보여주는 프리셋입니다. 3 mamba_moe (mamba 믹서 +
MoE FFN) + 1 attention dense 패턴을 8 번 반복해 총 32 레이어를 구성합니다. MoE 가
O(N) 믹서 위에 놓여 있어, 처리량이 mixtral 스타일보다 유리할 것으로 예상됩니다.
핵심 통찰은 MoE 는 FFN 희소성에 대한 선택이고 믹서 선택과 직교한다 는 점입니다. 대부분의 MoE 논문이 attention 에 얹는 사례이지만, 이론적으로는 mamba, retnet, hyena 어디든 얹을 수 있습니다.
layer_templates:
mamba_moe: # mamba mixer + MoE FFN
mixer:
type: mamba
mamba: { variant: mamba2, d_state: 128 }
ffn:
type: moe
moe: { experts: 8, top_k: 2 }
state: { ssm_state: true }
근거: Zyphra 2024 (BlackMamba); Pióro et al. 2024 (MoE-Mamba).
4-E. arch_expert_deepseek_moe — Fine-Grained MoE (32 experts, top-3)
가장 진보적인 MoE 설계 중 하나입니다. 기존 Mixtral 스타일(8 experts × top-2) 대신 32 개의 작은 experts × top-3 로 구성되어, 같은 활성 파라미터 예산에서 더 세밀한 "전문가 특화" 가 가능해집니다.
ffn:
type: moe
moe:
experts: 32 # fine-grained: 많은 소형 experts
top_k: 3 # 각 토큰이 3개 전문가에 분산
router: softmax
z_loss: 0.001 # router 안정성 (Zoph 2022)
Mixtral 과 DeepSeek 비교
| 항목 | Mixtral (mixtral_moe) | DeepSeek (deepseek_moe) |
|---|---|---|
| experts | 8 큰 experts | 32 작은 experts |
| top_k | 2 | 3 |
| 전문화 | 거친 편 (각 expert 가 크게 담당) | 세밀 (각 expert 가 좁게 특화) |
| router 복잡도 | 낮음 | 높음 (더 많은 후보 평가) |
스키마 관련 주의사항이 하나 있습니다. DeepSeek-V2/V3 의 "shared experts" (항상 활성화 되는 소수 expert) 는 현재 eulerstack 스키마에 해당 필드가 없어 근사만 가능합니다. 실제로는 top_k 를 높여 일부 보완하는 식으로 접근합니다.
근거: DeepSeek-AI 2024 (V2/V3, DeepSeekMoE); Dai et al. 2024 (expert specialization).
4-F. arch_expert_retnet_moe — RetNet × MoE (논문 없음, 예측 조합)
이 프리셋은 eulerstack 이 가능하게 하는 "새로운 조합" 의 예시입니다. 현재 공개된 논문 중 RetNet 과 MoE 를 결합한 연구는 없지만, 다음 흐름에서 논리적으로 예측됩니다.
- Sun 2023 (RetNet): attention 의 대안 제시 (3 모드 호환 retention)
- Pióro 2024 + Zyphra 2024 (MoE-Mamba, BlackMamba): attention 없는 믹서 + MoE 가 작동
- 따라서 RetNet + MoE 도 작동해야 합니다 (같은 논리)
예상되는 이점은 RetNet 의 청크 모드(병렬 훈련) + 순환 모드(O(1) 추론) 가 MoE 의
조건부 compute 와 결합됐을 때 장문 훈련-추론 효율이 극대화된다는 것입니다. 이 프리셋이
교육적인 이유는 "논리적 공백" 을 채우는 연구가 EulerStack 덕분에 코드 수정 없이
YAML 만으로 가능해진다는 점을 보여주기 때문입니다.
근거 (조합 추론): Sun 2023 + Zyphra 2024 + Pióro 2024.
4-G. arch_expert_frontier_full_moe — Attention-Free, All-MoE, Multi-Mixer (가장 실험적)
EulerStack 에서 가장 투기적인 프리셋입니다. 정확히 이 구성을 출판한 논문은 없지만, 세 가지 연구 흐름의 합리적 외삽으로 볼 수 있습니다.
- MoE 는 활성 FLOPs 고정으로 용량 확장 (Mixtral, DeepSeek-V3)
- 비-attention 믹서가 O(N) 으로 Transformer 품질 달성 (Mamba, Jamba, BlackMamba)
- 다양한 믹서가 단일 믹서를 이긴다 (Arora 2024, Jamba-1.5)
이 셋을 모두 결합하면 attention 완전 제거 + 3-way 믹서 앙상블(mamba + hyena + retnet) + 모든 레이어 MoE 라는 구성이 나옵니다.
스케줄은 8 그룹 × 4 레이어 = 32 레이어로 구성됩니다.
# group = [mamba_moe × 2, hyena_moe × 1, retnet_moe × 1]
# → 16 mamba + 8 hyena + 8 retnet, 0 attention
예상되는 도전 과제는 다음과 같습니다.
- 훈련 안정성: MoE 와 비-attention 믹서 둘 다 gradient 가 까다로워, z_loss / capacity_factor / lr 의 공격적 튜닝이 필요합니다.
- Recall 약화: attention 앵커가 없으므로 exact matching 태스크에서 약할 것으로 예상됩니다.
- 장문 확장성 극대화: 모든 믹서가 sub-quadratic 이므로 수십만 토큰 훈련이 이론적으로 가능합니다.
이 프리셋의 목적은 성능 보장이 아니라 "이 조합이 실제로 작동하는가" 를 묻는 연구 출발점을 제공하는 것입니다.
근거 (조합 예측, 단일 논문 없음): BlackMamba + MoE-Mamba + Hyena + RetNet + Arora 2024.
4-H. arch_expert_progressive_stack — 계층적 점진 복잡도 (논문 없음, 예측)
"깊이에 따라 mixer 의 비용을 점진적으로 올리자" 는 원리를 따르는 실험입니다. Vision 모델(초기 CNN → 후기 attention)과 일부 생물학 모델에서 관찰된 계층적 분업 을 LLM 시퀀스 축에 그대로 적용한 것입니다.
스케줄 (32 레이어, 앞 → 뒤로 엄격히 비용 증가):
| 구간 | 레이어 | 믹서 | 비용 / 역할 |
|---|---|---|---|
| Zone 1 | 1–8 | Hyena (dense FFN) | 가장 저렴 (O(N log N) FFT 컨볼루션) — 넓은 구조적 패턴 포착 |
| Zone 2 | 9–20 | Mamba2 (dense FFN) | 중간 (O(N) selective SSM) — 벌크 토큰 순차 요약 |
| Zone 3 | 21–28 | RetNet (dense FFN) | 중상 (O(N) chunkwise retention) — 훈련/추론 균형 |
| Zone 4 | 29–32 | Attention + MoE | 가장 비쌈 (O(N²) + 조건부 compute) — 정확 recall + 용량 확장 |
layer_schedule:
- { template: hyena_dense, repeat: 8 }
- { template: mamba_dense, repeat: 12 }
- { template: retnet_dense, repeat: 8 }
- { template: attn_moe, repeat: 4 }
예상되는 효과는 다음과 같습니다. Hyena 가 초기에 "문맥의 대강의 윤곽" 을 FFT 로 빠르게 잡고, Mamba 가 중기에 "이야기 흐름" 을 요약하며, RetNet 이 후기에 "청크 단위 refinement" 을 수행하고, 마지막 4 개 attention + MoE 가 "정확한 recall 과 조건부 capacity" 를 담당합니다.
이 프리셋이 교육적인 이유는 단조 "cheap → expensive" 순서가 의도적이고 검증되지 않은 가설이기 때문입니다. 경쟁 배치(역순, interleave 등)와 비교해야 진짜 이득이 있는지를 확인할 수 있습니다. EulerStack 덕분에 YAML 만 교체해 동일 파라미터 예산에서 이 두 배치를 직접 비교할 수 있습니다.
근거 (조합 추론, 단일 논문 없음): Poli 2023 (Hyena) + Gu 2024 (Mamba2) + Sun 2023 (RetNet) + Fedus 2022 (MoE) + Vision 문헌 (conv → attention 계층).
4-I. arch_expert_dilated_longnet — Temporal Pyramid (논문 없음, 예측)
"레이어마다 receptive field 를 기하급수적으로 키워 피라미드 형태로 쌓자" 는 원리의 실험입니다. Longnet (Ding et al. 2023, MSR) 의 dilated attention 아이디어를 층별 window 크기 확장 으로 근사한 것으로, 커스텀 dilated-attention 커널 없이 현재 eulerstack 의 sliding window 만으로 구현됩니다.
스케줄 (32 레이어, 5-zone pyramid, max_seq_len 64K):
| 구간 | 레이어 | 믹서 | 수용 영역 |
|---|---|---|---|
| Zone 1 | 1–4 | Mamba2 (dense FFN) | O(N) 벌크 pre-processing |
| Zone 2 | 5–8 | Sliding window 1,024 | 문법 단위 (tight local) |
| Zone 3 | 9–16 | Sliding window 4,096 | 문단 단위 |
| Zone 4 | 17–24 | Sliding window 16,384 | 문서 단위 |
| Zone 5 | 25–32 | Global attention + MoE | 전역 recall + 조건부 capacity |
layer_schedule:
- { template: mamba_prefix, repeat: 4 }
- { template: sw_1024, repeat: 4 }
- { template: sw_4096, repeat: 8 }
- { template: sw_16384, repeat: 8 }
- { template: global_moe, repeat: 8 }
embedding:
rope_theta: 1000000.0
rope_scaling: { type: linear, factor: 4.0 }
수용 영역이 zone 당 약 4 배씩 확장(1K → 4K → 16K → global)되어, 실제 dilation 없이도
temporal pyramid 구조를 형성합니다. Mamba 접두부는 raw token 을 O(N) 으로 선처리하고,
MoE 꼬리가 전역 문맥이 모이는 지점에서 조건부 capacity 를 추가합니다.
이 조합이 예측 가능한 이유는 네 가지 연구 흐름의 합리적 결합이기 때문입니다. (a) Longnet 은 dilated attention 으로 1B 토큰 문맥을 실증, (b) Mistral 은 sliding window 로 attention 을 저렴화, (c) Jamba 는 Mamba 접두부 + attention 앵커를 제안, (d) Fedus / Shazeer 는 MoE 의 효과를 입증. 이 넷을 "층별 window 크기 확장" 이라는 단순한 방식으로 합친 것이 4-I 입니다.
근거 (조합 예측): Ding 2023 (Longnet) + Beltagy 2020 (Longformer) + Jiang 2023 (Mistral) + Lieber 2024 (Jamba) + Fedus 2022 (Switch).
핵심 비교: 4-A 부터 4-I 까지
| 실험 | 격리 가설 | 검증해야 할 질문 |
|---|---|---|
| research (multi-mixer + partial MoE) | "다양성 > 단일 믹서 최적화" | 어떤 믹서 조합 비율이 최선? |
| mixtral_moe (all-MoE, attn) | "conditional compute 극대화" | 활성/총 비율이 품질에 미치는 영향? |
| striped_hyena (128K) | "Hyena + 소량 attn 으로 극장문" | attention 없이 exact recall 약화 정도? |
| blackmamba_moe (mamba + MoE) | "MoE 는 attention 전용이 아니다" | mamba 레이어에 MoE 얹으면 throughput 이득은? |
| deepseek_moe (fine-grained) | "작은 experts 많이 > 큰 experts 적게" | 같은 예산에서 특화도 차이? |
| retnet_moe (예측 조합) | "RetNet 도 MoE 를 받는다" | 청크 모드 + conditional compute 의 상호작용? |
| frontier_full_moe (attn-free) | "attention 없이 MoE + 다양성 만으로" | 훈련 안정성, recall 한계는 어디? |
| progressive_stack (계층적 점진) | "깊이별 mixer 비용 단조증가가 이득이다" | cheap→expensive 순서 vs 역순/interleave? |
| dilated_longnet (temporal pyramid) | "층별 window 기하급수 확장이 dilation 을 근사한다" | pyramid zone 수 / 비율이 품질에 미치는 영향? |
전체 그림을 정리하면 4-A 부터 4-C 까지는 "기존 연구의 재현과 약간의 확장" 수준이고, 4-D 부터 4-I 까지는 EulerStack 덕분에 쉽게 시도 가능한 "새로운 조합들" 입니다. 특히 4-H 와 4-I 처럼 단일 논문이 없는 깊이 축 / 수용 영역 축 실험 도 스키마 변경 없이 YAML 만으로 바로 벤치마크할 수 있습니다.
전체 비교 실행 예제
20 개 arch_ 프리셋의 파라미터 수, 레이어 구성, 믹서 분포를 한 번에 비교하는 스크립트를 제공합니다.
python examples/03_architecture_evolution.py
출력은 각 프리셋의 구성을 테이블로 보여주므로, 20 개 프리셋 전체의 설계 차이를 한눈에 조망할 수 있습니다.
다음 단계
- 02 프리셋 사용 — llm_ 실전 배포 프리셋 탐색
- 04 컴파일과 설명 — HF 모델 export
- 05 데이터 준비 — 훈련 데이터 토큰화
- 06 Sanity 훈련 — 모델이 실제로 학습되는지 확인
- 08 expert_mini 워크스루 — 소형 expert 프리셋 실험
- 09 v1 신규 primitive 워크스루 —
arch_advanced_mla,arch_advanced_mod,arch_expert_reasoning_r1,arch_expert_titans_memory,arch_expert_dual_stream의 YAML 문법 상세 - 믹서별 심화 학습: attention (+ MLA), mamba, retnet, hyena