0. 믹서 개요 — 왜 여러 종류를 섞는가

믹서란 무엇인가요?

LLM(대형 언어 모델)은 결국 "토큰 N개를 받아서 다음 토큰 1개를 예측"하는 모델입니다. 이 과정에서 가장 중요한 부분은 "현재 토큰이 과거의 어떤 토큰들에 주목해야 하는가?" 를 결정하는 부분인데, 이 역할을 담당하는 레이어를 믹서(Token Mixer) 라고 부릅니다.

간단히 말해, 믹서는 "시퀀스 축(sequence axis) 위에서 정보를 섞어주는 연산"입니다. 문장의 앞쪽 단어가 뒤쪽 단어에 영향을 미치게 만드는 층이 바로 믹서입니다.

Transformer 이전에는 RNN/LSTM 이 이 역할을 했고, Transformer 이후로는 Attention 이 사실상의 표준이 되었습니다. 그러나 Attention 은 시퀀스 길이 N 에 대해 계산/메모리 비용이 O(N²) 이라는 치명적 단점이 있어서, 최근 연구들은 "Attention 을 대체하거나 부분적으로 혼합하는 더 효율적인 믹서" 들을 활발히 제안하고 있습니다.

EulerStack v1 이 지원하는 6 가지 믹서

기본 4 가지 (Tier 1/2 프리셋의 주력):

믹서	계산 복잡도	상태 (state)	강점
`attention`	O(N²)	KV 캐시	정확한 문맥 매칭, 검색, 추론 (Recall)
`mamba`	O(N)	SSM state	매우 긴 시퀀스, 선형 복잡도, 빠른 추론
`retnet`	O(N) 훈련 / O(1) 추론	청크 retention	병렬 훈련 + 효율적 추론 동시
`hyena`	O(N log N)	(state 없음)	매우 긴 컨볼루션 커널, 장거리 의존성

v1 Phase B 추가 2 가지 (고급):

믹서	계산 복잡도	상태	강점	런타임
`branched`	분기 중 선택 복잡도의 가중합	분기별	per-token 라우팅으로 조건부 계산 (Jamba × per-token)	🟡 Fallback
`ttt_layer`	O(N) + inner opt step	학습되는 inner MLP	Test-Time Training (Sun et al. 2024). 추론 시에도 가중치 업데이트	🟡 Fallback (Mamba path)

또한 attention 에는 v1 Phase B2.1 에서 latent_dim (MLA — Multi-head Latent Attention, DeepSeek-V3) 옵션이 추가되어 KV 캐시를 latent 로 압축할 수 있습니다. 이건 별도 믹서가 아니라 attention 의 서브 설정 입니다 (Core 런타임).

각 믹서의 자세한 설명은 다음 문서들에 있습니다:

01_attention.md — 표준 Attention + MLA (latent_dim)
02_mamba.md — Mamba2 SSM (선형 시간 recurrence)
03_retnet.md — RetNet (청크 retention)
04_hyena.md — Hyena (긴 컨볼루션 필터)

branched 와 ttt_layer 는 아직 별도 mixer 튜토리얼 페이지가 없습니다 — 09_new_primitives_walkthrough.md §5, §6 에서 YAML 문법과 사용 사례를 확인하세요.

왜 여러 믹서를 섞는가? (하이브리드 아키텍처)

2024년 이후 연구에서 가장 중요한 발견 중 하나는 "서로 다른 귀납적 편향(inductive bias)을 가진 믹서를 섞으면 동일한 파라미터 예산에서 더 좋은 성능이 나온다" 는 것입니다.

Attention 은 "정확한 항목을 찾아 기억"하는 데 강합니다.
Mamba 는 "긴 문맥의 흐름을 요약"하는 데 강합니다.
RetNet 은 "훈련은 Transformer 처럼, 추론은 RNN 처럼" 동작합니다.
Hyena 는 "매우 긴 거리의 패턴을 하나의 컨볼루션으로 인코딩"합니다.

Jamba (AI21, 2024), Zamba (Zyphra, 2024), Samba (Microsoft, 2024) 같은 최신 모델들이 이런 하이브리드 구조로 Transformer 단일 아키텍처를 능가하는 것을 보여줬습니다.

EulerStack 은 이 4가지 믹서를 같은 YAML 스펙 안에서 자유롭게 섞을 수 있도록 설계되었습니다. 프리셋 arch_beginner_llama ~ arch_expert_research 가 바로 이 진화 과정을 보여줍니다.

어떤 믹서를 언제 써야 하나요?

문제 유형	추천 믹서 조합
짧은 대화 (≤4K), 높은 품질	Attention 위주 (Llama 스타일)
매우 긴 문서 (32K~), 빠른 추론	Mamba 75% + Attention 25% (Jamba 스타일)
긴 컨텍스트 훈련 효율	RetNet 위주
매우 긴 거리 패턴 인식	Hyena + Attention
연구/실험 (최고 성능 탐색)	4개 모두 섞기 + MoE (Stage 5)

다음 단계

각 믹서 상세 문서 읽기 (01_attention.md 부터)
02_use_presets.md — 이 믹서들을 실제 조합한 프리셋 살펴보기
04_compile_and_explain.md — 프리셋을 HF 모델로 export 하기

1. Attention 상세 다음 →