7. 스킬 레벨 아키텍처 워크스루

이 튜토리얼은 configs/presets/arch_*.yml 에 있는 20 개 프리셋을 초급 → 중급 → 고급 → 전문가 순서로 따라가며 현대 LLM 아키텍처의 진화를 이해하는 것을 목표로 합니다. 모든 프리셋의 파라미터 규모는 약 1–2B 로 맞춰져 있어, 크기 효과가 아닌 아키텍처 선택의 효과 에만 집중할 수 있습니다.

왜 한 단계에 여러 프리셋이 있는가

각 단계(초급/중급/고급/전문가)마다 경쟁 관계의 접근법이 여러 개 존재합니다. 어떤 접근이 왜 좋은지를 이해하려면, 같은 단계 안에서 대안들과 직접 비교해야 합니다. 대표적인 비교 축은 다음과 같습니다.

중급 단계: Mistral 의 1:3 sliding 과 Gemma2 의 1:1 alternating, Qwen 의 RoPE scaling 은 모두 "attention 비용을 줄이면서 긴 문맥 처리" 라는 같은 목표에 대한 세 가지 다른 답입니다.
고급 단계: Jamba 의 3:1 하이브리드, Samba 의 1:1 하이브리드, Pure RetNet 은 모두 "O(N²) 병목을 어떻게 탈출할 것인가" 라는 질문에 대한 서로 다른 답입니다.

각 단계를 읽으면서 "왜 이렇게 설계했는가" 의 질문에 논문 근거로 답할 수 있게 되는 것이 이 튜토리얼의 목적입니다.

시작하려면 다음 명령들로 프리셋을 탐색합니다.

eulerstack presets list                               # 전체 목록 + 파라미터
eulerstack explain --preset configs/presets/arch_beginner_gpt2.yml
eulerstack validate --preset configs/presets/arch_beginner_gpt2.yml --report
eulerstack compile --preset configs/presets/arch_beginner_gpt2.yml --output-dir ./out/gpt2

단계 1: BEGINNER — 출발점 이해

이 단계의 목표는 가장 기본적인 구성 요소(attention, FFN, norm, positional encoding) 가 어떻게 조립되어 하나의 Transformer 를 이루는지 를 이해하는 것입니다.

1-A. `arch_beginner_gpt2` — Classic Vanilla Transformer (2019 baseline)

GPT-2 시대의 고전적 선택을 그대로 재현:

Multi-Head Attention (GQA 없음, n_kv_heads = n_heads)
LayerNorm, post-norm (residual 이후 정규화)
MLP + GeLU (게이팅 없음)
qkv_bias: true (고전 Transformer 는 bias 포함)

norm: { type: layernorm, position: post }
ffn: { type: mlp, activation: gelu }
mixer:
  attention:
    qkv_bias: true

이 프리셋이 출발점인 이유는 현대 LLM 들이 무엇을 바꿨는지 를 이해하기 위해 "바꾸기 전" 의 모습을 먼저 알아야 하기 때문입니다. GPT-2 에서 Llama 로 오는 동안 어떤 설계가 어떻게 개선되었는지 이후 섹션에서 하나씩 대비해갑니다.

근거: Vaswani et al. 2017; Radford et al. 2019 (GPT-2); Ba et al. 2016 (LayerNorm).

1-B. `arch_beginner_llama` — Modern Baseline (2023 standard)

Llama 2/3 시대의 표준 설정:

Grouped-Query Attention (n_kv_heads < n_heads) — KV 캐시 절약
RMSNorm, pre-norm (residual 전에 정규화) — 훈련 안정성
Gated MLP + SwiGLU (gate × up projection) — 표현력 향상
qkv_bias: false (2020년대 표준)

norm: { type: rmsnorm, position: pre }
ffn: { type: gated_mlp, activation: swiglu }
model: { n_heads: 16, n_kv_heads: 4 }   # 4:1 GQA

핵심 비교: 1-A 와 1-B 의 차이

축	Classic (GPT-2)	Modern (Llama)	이득
Norm 종류/위치	LayerNorm, post	RMSNorm, pre	훈련 안정성
FFN	MLP + GeLU	Gated MLP + SwiGLU	표현력
Attention head 공유	MHA (모두 독립)	GQA (4:1)	KV 캐시 75% 절약
Bias	있음	없음	파라미터 절약

직접 해보기 좋은 실습은 두 프리셋을 explain 으로 출력해 어떤 필드가 달라지는지 직접 눈으로 비교하는 것입니다. 두 출력을 나란히 놓으면 "현대 LLM 의 변경점" 이 한눈에 들어옵니다.

단계 2: INTERMEDIATE — Attention 의 한계를 부드럽게 밀어내기

단계 1 의 모든 레이어는 O(N²) attention 을 사용합니다. 중급 단계는 attention 을 유지하면서 비용을 구조적으로 줄이는 세 가지 접근을 비교합니다.

2-A. `arch_intermediate_mistral` — Sparse Global + Dense Local (1:3)

4 개 레이어 중 1 개만 전역(global) attention 을 유지하고, 나머지 3 개는 4,096 토큰 크기의 슬라이딩 윈도우 attention 을 사용합니다. 이 설계로 전체 KV 캐시 크기가 약 4 배 감소하며, 전역 문맥 이해 능력은 주기적으로 나타나는 global 레이어가 담당합니다.

layer_schedule:
  - { template: global_attn, repeat: 1 }
  - { template: sliding_attn, repeat: 3 }     # window: 4096
  # ... 반복

근거: Jiang et al. 2023 (Mistral 7B). Beltagy et al. 2020 (Longformer).

2-B. `arch_intermediate_gemma2` — Alternating Global:Local (1:1)

매 레이어마다 global 과 local 을 교대로 배치합니다. Mistral 보다 전역 레이어의 밀도가 2 배 높기 때문에 전역 추론이 더 자주 일어나지만, 대신 KV 캐시 절약 효과는 덜 공격적입니다.

layer_schedule:
  - { template: global_attn, repeat: 1 }
  - { template: local_attn, repeat: 1 }       # window: 4096
  # ... 교대

근거: Team Gemma, 2024 (Gemma 2, Google DeepMind).

2-C. `arch_intermediate_qwen_longctx` — RoPE Scaling 으로 장문 확장

Attention 구조 자체는 건드리지 않고 위치 인코딩만 조정해 더 긴 문맥을 처리합니다.

embedding:
  positional: rope
  rope_theta: 1000000.0            # Llama 는 500000
  rope_scaling: { type: linear, factor: 4.0 }
model:
  max_seq_len: 32768

같은 attention 을 쓰되 RoPE 를 4 배 외삽해 위치 표현력을 확장 하는 방식입니다. 슬라이딩 윈도우 없이도 긴 컨텍스트를 처리할 수 있습니다.

근거: Chen et al. 2023 (Position Interpolation); Qwen 2/3 technical reports.

핵심 비교: 2-A, 2-B, 2-C

접근	방법	어울리는 상황
Mistral (1:3)	로컬 편향 + 주기적 전역	KV 절약이 최우선일 때
Gemma 2 (1:1)	전역 밀도를 더 높게	문맥 내 정확한 reasoning 이 중요할 때
Qwen (RoPE scaling)	attention 구조 유지, 위치만 확장	기존 가중치를 긴 문맥으로 확장할 때

직접 해보기 좋은 실습은 이 세 프리셋을 compile --output-dir 로 export 한 뒤 동일한 문서에 forward pass 를 돌려 메모리 사용량을 비교하는 것입니다. 같은 attention 이 어떻게 다른 비용 특성을 가질 수 있는지 수치로 확인할 수 있습니다.

단계 3: ADVANCED — Attention 자체를 교체하기

중급 단계까지는 attention 을 유지하면서 비용만 줄였습니다. 고급 단계는 attention 자체를 부분적으로 또는 전면적으로 교체 하는 세 가지 연구 검증된 대안을 비교합니다.

3-A. `arch_advanced_jamba` — Mamba + Attention 3:1 Hybrid

전체 레이어의 75% 를 Mamba2 SSM 으로 교체하고, 25% 만 attention 으로 유지합니다. Mamba 가 O(N) 으로 bulk 토큰 처리를 담당하고, attention 은 "검색 앵커(retrieval anchor)" 역할을 맡아 in-context recall 능력을 보존합니다.

layer_schedule:
  - { template: mamba, repeat: 3 }    # mamba2, d_state=128
  - { template: attn, repeat: 1 }     # global attention
  # ... 반복

근거: Lieber et al. 2024 (Jamba, AI21) — 398B total / 94B active MoE 로 SOTA 입증.

3-B. `arch_advanced_samba` — Mamba + Sliding Window 1:1

Mamba 와 슬라이딩 윈도우 attention 을 1:1 로 교대로 배치합니다. Jamba 가 "attention 을 드물게 쓰는" 전략이라면, Samba 는 "attention 을 국소적으로 쓰는" 전략입니다. 모든 레이어에 attention 이 존재하지만 각 attention 이 저렴하다는 점이 특징입니다.

layer_schedule:
  - { template: mamba, repeat: 1 }
  - { template: sliding_attn, repeat: 1 }     # window: 4096
  # ... 교대

근거: Ren et al. 2024 (Samba, Microsoft Research) — "Simple Hybrid SSM for Efficient Unlimited Context".

3-C. `arch_advanced_retnet` — Pure RetNet (attention 완전 제거)

모든 레이어를 Retention 블록으로 채웁니다. Softmax attention 대신 고정 지수 감쇠 (exponential decay) 를 사용하며, 병렬 / 순환 / 청크 세 모드가 수학적으로 동일한 결과를 내는 것이 핵심 특징입니다. 이 덕분에 훈련 시에는 병렬 모드로, 추론 시에는 순환 모드로 같은 가중치를 그대로 쓸 수 있습니다.

layer_templates:
  retnet_block:
    mixer:
      type: retnet
      retnet: { chunkwise: true, chunk_size: 128, rope: true }
layer_schedule:
  - { template: retnet_block, repeat: 32 }

근거: Sun et al. 2023 (RetNet, Microsoft) — "Successor to Transformer".

핵심 비교: 3-A, 3-B, 3-C

접근	Attention 비율	주요 이득	주요 약점
Jamba (3:1)	25% global	긴 문맥 처리량 증가, recall 유지	Mamba 가 3 층 연속 → 순수 recall 약화
Samba (1:1)	50% local	모든 층에 attention 유지, KV 제한	Attention 비용이 매 층마다 존재
Pure RetNet	0%	훈련-추론 모드 일관성 최고	하이브리드 아님, 원조 대비 품질 간극

이 세 프리셋이 중요한 이유는 "O(N²) 를 어떻게 탈출할 것인가" 라는 질문에 대한 서로 다른 답이기 때문입니다. 어떤 답이 절대적으로 옳은 것은 아니며, 목적 (장문 처리량, recall 정확도, 훈련 단순성 중 무엇을 우선하는지) 에 따라 유리한 선택이 달라집니다.

단계 4: EXPERT — 연구용 극단 조합과 MoE × Mixer 교차 설계

여기서부터는 프로덕션 이전의 실험 / 연구 탐색 영역입니다. 어떤 조합이 최선인지 아직 열린 문제이며, 이 단계의 프리셋은 크게 두 축을 교차하는 설계 공간을 대표합니다.

축 A — 믹서 선택: attention, mamba, retnet, hyena, 그리고 이들의 multi-mixer 조합
축 B — MoE 전략: MoE 없음, 1-in-4 부분 MoE, 매 레이어 MoE, fine-grained many-small

두 축이 직교하기 때문에 같은 MoE 전략을 다른 믹서에 얹을 수 있고 그 역도 마찬가지입니다. 아래 9 개 프리셋은 이 2D 설계 공간의 대표 점들입니다.

MoE × Mixer 교차 요약

프리셋	믹서	MoE 전략	위치
`arch_expert_research`	attn + mamba + retnet + hyena	8 exp / top-2, attn 레이어만	다양성 × 부분 MoE
`arch_expert_mixtral_moe`	attn only	8 exp / top-2, 모든 레이어	단일 믹서 × 고밀도 MoE
`arch_expert_striped_hyena`	hyena + attn 4:1	없음 (dense FFN)	sub-O(N²) × dense
`arch_expert_blackmamba_moe`	mamba (75%) + attn (25%)	8 exp / top-2, mamba 레이어만	비-attention 믹서에 MoE
`arch_expert_deepseek_moe`	attn only	32 exp / top-3 (fine-grained), 모든 레이어	단일 믹서 × 진보 MoE
`arch_expert_retnet_moe`	retnet only	8 exp / top-2, 1-in-4	RetNet × MoE (논문 無 / 예측)
`arch_expert_frontier_full_moe`	mamba + hyena + retnet (attn 없음)	8 exp / top-2, 모든 레이어	가장 실험적
`arch_expert_progressive_stack`	hyena→mamba→retnet→attn (깊이별 변화)	마지막 4개 레이어만 MoE	계층적 점진 복잡도 (논문 無)
`arch_expert_dilated_longnet`	mamba + sw(1K→4K→16K) + global (피라미드)	마지막 8개 global 레이어만 MoE	Temporal pyramid (논문 無)

4-A. `arch_expert_research` — 4 믹서 + MoE, 3-Phase

EulerStack 의 모든 믹서를 한 스택에 섞고 attention 레이어에만 MoE FFN 을 얹은 "최대 다양성" 구성입니다. 깊이별로 세 phase 의 역할 분담을 가집니다.

Phase 1 (1-8): mamba + hyena — 효율적 벌크 토큰 처리
Phase 2 (9-24): mamba + retnet + attention/MoE — 깊은 추론 코어
Phase 3 (25-32): attention/MoE + retnet — 출력 정제

근거: Arora et al. 2024 ("mixture of sequence models wins"); Jamba-1.5 의 3-phase 영감.

4-B. `arch_expert_mixtral_moe` — Pure Attention + Every-Layer MoE

다른 믹서 없이 순수 attention + 모든 레이어에 MoE FFN (8 experts, top-2) 을 배치합니다. MoE 밀도를 극대화해 conditional compute 의 효과를 고립시킨 실험입니다.

llm_*_moe 와의 차이는 MoE 밀도에 있습니다. llm_*_moe 는 1-in-4 MoE 로 실전 배포용인 반면, 이 프리셋은 모든 레이어가 MoE 인 연구용 극단 설정입니다.

근거: Jiang et al. 2024 (Mixtral 8x7B); Shazeer et al. 2017; Zoph et al. 2022 (router z-loss).

4-C. `arch_expert_striped_hyena` — Hyena + Attention, 128K 장문

Hyena 장거리 컨볼루션 + 주기적 attention 앵커의 조합으로 128K 토큰 컨텍스트를 지원합니다. MoE 는 사용하지 않으며, Hyena 자체의 sub-O(N²) 효율에 집중합니다. O(N log N) 컨볼루션이 attention 의 O(N²) 를 대체할 수 있는지 검증하는 실험입니다.

근거: Poli et al. 2023; Together AI 2023 (StripedHyena); Nguyen et al. 2023 (HyenaDNA).

4-D. `arch_expert_blackmamba_moe` — Mamba + MoE (비-attention 믹서에 MoE 얹기)

MoE 가 attention 전용이 아니라는 것을 보여주는 프리셋입니다. 3 mamba_moe (mamba 믹서 + MoE FFN) + 1 attention dense 패턴을 8 번 반복해 총 32 레이어를 구성합니다. MoE 가 O(N) 믹서 위에 놓여 있어, 처리량이 mixtral 스타일보다 유리할 것으로 예상됩니다.

핵심 통찰은 MoE 는 FFN 희소성에 대한 선택이고 믹서 선택과 직교한다 는 점입니다. 대부분의 MoE 논문이 attention 에 얹는 사례이지만, 이론적으로는 mamba, retnet, hyena 어디든 얹을 수 있습니다.

layer_templates:
  mamba_moe:          # mamba mixer + MoE FFN
    mixer:
      type: mamba
      mamba: { variant: mamba2, d_state: 128 }
    ffn:
      type: moe
      moe: { experts: 8, top_k: 2 }
    state: { ssm_state: true }

근거: Zyphra 2024 (BlackMamba); Pióro et al. 2024 (MoE-Mamba).

4-E. `arch_expert_deepseek_moe` — Fine-Grained MoE (32 experts, top-3)

가장 진보적인 MoE 설계 중 하나입니다. 기존 Mixtral 스타일(8 experts × top-2) 대신 32 개의 작은 experts × top-3 로 구성되어, 같은 활성 파라미터 예산에서 더 세밀한 "전문가 특화" 가 가능해집니다.

ffn:
  type: moe
  moe:
    experts: 32        # fine-grained: 많은 소형 experts
    top_k: 3           # 각 토큰이 3개 전문가에 분산
    router: softmax
    z_loss: 0.001      # router 안정성 (Zoph 2022)

Mixtral 과 DeepSeek 비교

항목	Mixtral (mixtral_moe)	DeepSeek (deepseek_moe)
experts	8 큰 experts	32 작은 experts
top_k	2	3
전문화	거친 편 (각 expert 가 크게 담당)	세밀 (각 expert 가 좁게 특화)
router 복잡도	낮음	높음 (더 많은 후보 평가)

스키마 관련 주의사항이 하나 있습니다. DeepSeek-V2/V3 의 "shared experts" (항상 활성화 되는 소수 expert) 는 현재 eulerstack 스키마에 해당 필드가 없어 근사만 가능합니다. 실제로는 top_k 를 높여 일부 보완하는 식으로 접근합니다.

근거: DeepSeek-AI 2024 (V2/V3, DeepSeekMoE); Dai et al. 2024 (expert specialization).

4-F. `arch_expert_retnet_moe` — RetNet × MoE (논문 없음, 예측 조합)

이 프리셋은 eulerstack 이 가능하게 하는 "새로운 조합" 의 예시입니다. 현재 공개된 논문 중 RetNet 과 MoE 를 결합한 연구는 없지만, 다음 흐름에서 논리적으로 예측됩니다.

Sun 2023 (RetNet): attention 의 대안 제시 (3 모드 호환 retention)
Pióro 2024 + Zyphra 2024 (MoE-Mamba, BlackMamba): attention 없는 믹서 + MoE 가 작동
따라서 RetNet + MoE 도 작동해야 합니다 (같은 논리)

예상되는 이점은 RetNet 의 청크 모드(병렬 훈련) + 순환 모드(O(1) 추론) 가 MoE 의 조건부 compute 와 결합됐을 때 장문 훈련-추론 효율이 극대화된다는 것입니다. 이 프리셋이 교육적인 이유는 "논리적 공백" 을 채우는 연구가 EulerStack 덕분에 코드 수정 없이 YAML 만으로 가능해진다는 점을 보여주기 때문입니다.

근거 (조합 추론): Sun 2023 + Zyphra 2024 + Pióro 2024.

4-G. `arch_expert_frontier_full_moe` — Attention-Free, All-MoE, Multi-Mixer (가장 실험적)

EulerStack 에서 가장 투기적인 프리셋입니다. 정확히 이 구성을 출판한 논문은 없지만, 세 가지 연구 흐름의 합리적 외삽으로 볼 수 있습니다.

MoE 는 활성 FLOPs 고정으로 용량 확장 (Mixtral, DeepSeek-V3)
비-attention 믹서가 O(N) 으로 Transformer 품질 달성 (Mamba, Jamba, BlackMamba)
다양한 믹서가 단일 믹서를 이긴다 (Arora 2024, Jamba-1.5)

이 셋을 모두 결합하면 attention 완전 제거 + 3-way 믹서 앙상블(mamba + hyena + retnet) + 모든 레이어 MoE 라는 구성이 나옵니다.

스케줄은 8 그룹 × 4 레이어 = 32 레이어로 구성됩니다.

# group = [mamba_moe × 2, hyena_moe × 1, retnet_moe × 1]
# → 16 mamba + 8 hyena + 8 retnet, 0 attention

예상되는 도전 과제는 다음과 같습니다.

훈련 안정성: MoE 와 비-attention 믹서 둘 다 gradient 가 까다로워, z_loss / capacity_factor / lr 의 공격적 튜닝이 필요합니다.
Recall 약화: attention 앵커가 없으므로 exact matching 태스크에서 약할 것으로 예상됩니다.
장문 확장성 극대화: 모든 믹서가 sub-quadratic 이므로 수십만 토큰 훈련이 이론적으로 가능합니다.

이 프리셋의 목적은 성능 보장이 아니라 "이 조합이 실제로 작동하는가" 를 묻는 연구 출발점을 제공하는 것입니다.

근거 (조합 예측, 단일 논문 없음): BlackMamba + MoE-Mamba + Hyena + RetNet + Arora 2024.

4-H. `arch_expert_progressive_stack` — 계층적 점진 복잡도 (논문 없음, 예측)

"깊이에 따라 mixer 의 비용을 점진적으로 올리자" 는 원리를 따르는 실험입니다. Vision 모델(초기 CNN → 후기 attention)과 일부 생물학 모델에서 관찰된 계층적 분업 을 LLM 시퀀스 축에 그대로 적용한 것입니다.

스케줄 (32 레이어, 앞 → 뒤로 엄격히 비용 증가):

구간	레이어	믹서	비용 / 역할
Zone 1	1–8	Hyena (dense FFN)	가장 저렴 (O(N log N) FFT 컨볼루션) — 넓은 구조적 패턴 포착
Zone 2	9–20	Mamba2 (dense FFN)	중간 (O(N) selective SSM) — 벌크 토큰 순차 요약
Zone 3	21–28	RetNet (dense FFN)	중상 (O(N) chunkwise retention) — 훈련/추론 균형
Zone 4	29–32	Attention + MoE	가장 비쌈 (O(N²) + 조건부 compute) — 정확 recall + 용량 확장

layer_schedule:
  - { template: hyena_dense, repeat: 8 }
  - { template: mamba_dense, repeat: 12 }
  - { template: retnet_dense, repeat: 8 }
  - { template: attn_moe, repeat: 4 }

예상되는 효과는 다음과 같습니다. Hyena 가 초기에 "문맥의 대강의 윤곽" 을 FFT 로 빠르게 잡고, Mamba 가 중기에 "이야기 흐름" 을 요약하며, RetNet 이 후기에 "청크 단위 refinement" 을 수행하고, 마지막 4 개 attention + MoE 가 "정확한 recall 과 조건부 capacity" 를 담당합니다.

이 프리셋이 교육적인 이유는 단조 "cheap → expensive" 순서가 의도적이고 검증되지 않은 가설이기 때문입니다. 경쟁 배치(역순, interleave 등)와 비교해야 진짜 이득이 있는지를 확인할 수 있습니다. EulerStack 덕분에 YAML 만 교체해 동일 파라미터 예산에서 이 두 배치를 직접 비교할 수 있습니다.

근거 (조합 추론, 단일 논문 없음): Poli 2023 (Hyena) + Gu 2024 (Mamba2) + Sun 2023 (RetNet) + Fedus 2022 (MoE) + Vision 문헌 (conv → attention 계층).

4-I. `arch_expert_dilated_longnet` — Temporal Pyramid (논문 없음, 예측)

"레이어마다 receptive field 를 기하급수적으로 키워 피라미드 형태로 쌓자" 는 원리의 실험입니다. Longnet (Ding et al. 2023, MSR) 의 dilated attention 아이디어를 층별 window 크기 확장 으로 근사한 것으로, 커스텀 dilated-attention 커널 없이 현재 eulerstack 의 sliding window 만으로 구현됩니다.

스케줄 (32 레이어, 5-zone pyramid, max_seq_len 64K):

구간	레이어	믹서	수용 영역
Zone 1	1–4	Mamba2 (dense FFN)	O(N) 벌크 pre-processing
Zone 2	5–8	Sliding window 1,024	문법 단위 (tight local)
Zone 3	9–16	Sliding window 4,096	문단 단위
Zone 4	17–24	Sliding window 16,384	문서 단위
Zone 5	25–32	Global attention + MoE	전역 recall + 조건부 capacity

layer_schedule:
  - { template: mamba_prefix, repeat: 4 }
  - { template: sw_1024,     repeat: 4 }
  - { template: sw_4096,     repeat: 8 }
  - { template: sw_16384,    repeat: 8 }
  - { template: global_moe,  repeat: 8 }
embedding:
  rope_theta: 1000000.0
  rope_scaling: { type: linear, factor: 4.0 }

수용 영역이 zone 당 약 4 배씩 확장(1K → 4K → 16K → global)되어, 실제 dilation 없이도 temporal pyramid 구조를 형성합니다. Mamba 접두부는 raw token 을 O(N) 으로 선처리하고, MoE 꼬리가 전역 문맥이 모이는 지점에서 조건부 capacity 를 추가합니다.

이 조합이 예측 가능한 이유는 네 가지 연구 흐름의 합리적 결합이기 때문입니다. (a) Longnet 은 dilated attention 으로 1B 토큰 문맥을 실증, (b) Mistral 은 sliding window 로 attention 을 저렴화, (c) Jamba 는 Mamba 접두부 + attention 앵커를 제안, (d) Fedus / Shazeer 는 MoE 의 효과를 입증. 이 넷을 "층별 window 크기 확장" 이라는 단순한 방식으로 합친 것이 4-I 입니다.

근거 (조합 예측): Ding 2023 (Longnet) + Beltagy 2020 (Longformer) + Jiang 2023 (Mistral) + Lieber 2024 (Jamba) + Fedus 2022 (Switch).

핵심 비교: 4-A 부터 4-I 까지

실험	격리 가설	검증해야 할 질문
research (multi-mixer + partial MoE)	"다양성 > 단일 믹서 최적화"	어떤 믹서 조합 비율이 최선?
mixtral_moe (all-MoE, attn)	"conditional compute 극대화"	활성/총 비율이 품질에 미치는 영향?
striped_hyena (128K)	"Hyena + 소량 attn 으로 극장문"	attention 없이 exact recall 약화 정도?
blackmamba_moe (mamba + MoE)	"MoE 는 attention 전용이 아니다"	mamba 레이어에 MoE 얹으면 throughput 이득은?
deepseek_moe (fine-grained)	"작은 experts 많이 > 큰 experts 적게"	같은 예산에서 특화도 차이?
retnet_moe (예측 조합)	"RetNet 도 MoE 를 받는다"	청크 모드 + conditional compute 의 상호작용?
frontier_full_moe (attn-free)	"attention 없이 MoE + 다양성 만으로"	훈련 안정성, recall 한계는 어디?
progressive_stack (계층적 점진)	"깊이별 mixer 비용 단조증가가 이득이다"	cheap→expensive 순서 vs 역순/interleave?
dilated_longnet (temporal pyramid)	"층별 window 기하급수 확장이 dilation 을 근사한다"	pyramid zone 수 / 비율이 품질에 미치는 영향?

전체 그림을 정리하면 4-A 부터 4-C 까지는 "기존 연구의 재현과 약간의 확장" 수준이고, 4-D 부터 4-I 까지는 EulerStack 덕분에 쉽게 시도 가능한 "새로운 조합들" 입니다. 특히 4-H 와 4-I 처럼 단일 논문이 없는 깊이 축 / 수용 영역 축 실험 도 스키마 변경 없이 YAML 만으로 바로 벤치마크할 수 있습니다.

전체 비교 실행 예제

20 개 arch_ 프리셋의 파라미터 수, 레이어 구성, 믹서 분포를 한 번에 비교하는 스크립트를 제공합니다.

python examples/03_architecture_evolution.py

출력은 각 프리셋의 구성을 테이블로 보여주므로, 20 개 프리셋 전체의 설계 차이를 한눈에 조망할 수 있습니다.

다음 단계

02 프리셋 사용 — llm_ 실전 배포 프리셋 탐색
04 컴파일과 설명 — HF 모델 export
05 데이터 준비 — 훈련 데이터 토큰화
06 Sanity 훈련 — 모델이 실제로 학습되는지 확인
08 expert_mini 워크스루 — 소형 expert 프리셋 실험
09 v1 신규 primitive 워크스루 — arch_advanced_mla, arch_advanced_mod, arch_expert_reasoning_r1, arch_expert_titans_memory, arch_expert_dual_stream 의 YAML 문법 상세
믹서별 심화 학습: attention (+ MLA), mamba, retnet, hyena

← 이전 6. Sanity 훈련 루프 8. Expert Mini 프리셋 워크스루 다음 →

7. 스킬 레벨 아키텍처 워크스루

왜 한 단계에 여러 프리셋이 있는가

단계 1: BEGINNER — 출발점 이해

1-A. arch_beginner_gpt2 — Classic Vanilla Transformer (2019 baseline)

1-B. arch_beginner_llama — Modern Baseline (2023 standard)

핵심 비교: 1-A 와 1-B 의 차이

단계 2: INTERMEDIATE — Attention 의 한계를 부드럽게 밀어내기

2-A. arch_intermediate_mistral — Sparse Global + Dense Local (1:3)

2-B. arch_intermediate_gemma2 — Alternating Global:Local (1:1)

2-C. arch_intermediate_qwen_longctx — RoPE Scaling 으로 장문 확장

핵심 비교: 2-A, 2-B, 2-C

단계 3: ADVANCED — Attention 자체를 교체하기

3-A. arch_advanced_jamba — Mamba + Attention 3:1 Hybrid

3-B. arch_advanced_samba — Mamba + Sliding Window 1:1

3-C. arch_advanced_retnet — Pure RetNet (attention 완전 제거)