4. Hyena 상세
한 줄 요약
"FFT 기반의 매우 긴 컨볼루션 커널을 작은 신경망(filter generator)으로 생성해서 sub-quadratic 으로 시퀀스를 섞는 연산. Attention 없이 매우 긴 거리 패턴을 인식."
어떻게 동작하나요?
일반적인 1D 컨볼루션을 생각해보세요. 커널 크기 K 를 주면 각 토큰이 주변 K 개 토큰과 섞입니다. Hyena 의 핵심 통찰은: "커널 크기를 시퀀스 전체 길이 N 만큼 크게 하면 매 토큰이 모든 과거 토큰과 섞일 수 있다. 하지만 N 개의 파라미터를 직접 학습하는 건 비효율적이다. 대신 작은 신경망이 N 개 값을 암묵적으로 (implicitly) 생성하게 하자"
구체적으로:
- Filter generator: 작은 MLP + 사인파 특성 + 지수 감쇠 윈도우가 있는 함수가 위치 인덱스 t 를 받아서 그 위치의 필터 값 h(t) 를 출력.
- FFT 컨볼루션: 이 긴 필터와 입력을 FFT 로 변환 → 원소별 곱 → 역 FFT = 컨볼루션. FFT 덕분에 비용은 O(N log N).
- 게이팅/다중 주문: Hyena 연산을 여러 번 반복하며 게이팅을 곱해 표현력 강화.
결과: Attention 없이도 전체 시퀀스에 걸친 장거리 의존성 을 O(N log N) 으로 학습.
장점
- Sub-quadratic: O(N log N) 으로 O(N²) Attention 보다 빠름 (큰 N 에서).
- Attention 없는 장거리 처리: 소프트맥스/KV 캐시 없이 긴 패턴 인식.
- 매우 긴 시퀀스에 강함: DNA/음악/오디오 등에서 뛰어난 성능 사례.
- 파라미터 효율: 커널을 직접 학습하지 않고 작은 생성기로 만들기 때문에 파라미터 수 적음.
단점
- In-context learning 약함: Attention 만큼 정확한 "예제 내 매칭" 은 어렵다.
- 훈련 안정성: 긴 컨볼루션은 초기화/정규화에 민감할 수 있음.
- 하드웨어 커널 성숙도: FlashAttention, Mamba 만큼 범용 최적화 커널이 많지 않음.
- 실전 LLM 적용은 상대적으로 적음: 연구/실험에서 Attention 보조로 주로 사용.
어떤 상황에서 빛나는가?
Hyena 는 "텍스트가 아닌 극도로 긴 시퀀스" 에서 진가를 발휘합니다:
- HyenaDNA (Nguyen et al., 2023): 1M 염기 DNA 시퀀스를 Attention 없이 처리.
- HyenaAudio, HyenaVision 등: 긴 오디오/긴 이미지 패치 처리.
- LLM 하이브리드의 보조 레이어: 주로 스택 일부에 섞어서 Attention 과 상호보완.
EulerStack 에서는 arch_expert_research 프리셋의 Phase 1 (초기 레이어) 에서
mamba 와 함께 사용해 "벌크 토큰 처리" 역할을 맡깁니다 — 초기 레이어는 세부 매칭보다
큰 범위의 구조적 패턴을 포착하는 데 유리하다는 가설입니다.
실제 적용 예
- Hyena Hierarchy (Poli et al., Stanford, 2023) — 원 논문. Attention 대체 가능성 증명.
- HyenaDNA (Nguyen et al., 2023) — 1M 토큰 DNA 게놈 모델링.
- StripedHyena 7B (Together AI, 2023) — Attention + Hyena 하이브리드 7B 모델.
- Evo (Arc Institute, 2024) — StripedHyena 기반 DNA foundation model.
어떤 상황에 유리한가?
| 상황 | Hyena 가 좋은가? |
|---|---|
| DNA / 오디오 / 긴 센서 데이터 | ★★★★★ 원래 용도 |
| LLM 초기 레이어 (벌크 처리) | ★★★★ (하이브리드로) |
| 매우 긴 컨텍스트 (≥128K) | ★★★★ 선형 스케일 |
| 짧은 대화/ICL 중심 태스크 | ★★ (Attention 이 나음) |
| 코딩 (정확한 심볼 recall) | ★★ (Attention + Mamba 조합이 나음) |
EulerStack YAML 예시
layer_templates:
hyena_layer:
mixer:
type: hyena
hyena:
depth: 2 # Hyena order (반복 깊이)
filter_hidden: 64 # filter generator 의 은닉 차원
filter_decay: 0.0 # 지수 감쇠 강도 (0 = 감쇠 없음)
ffn:
type: gated_mlp
activation: swiglu
# 주의: Hyena 는 state 가 없어서 state 섹션을 비워둔다
Stage 5 스타일 Phase 1 (mamba + hyena) 예시:
layer_schedule:
- template: mamba_layer
repeat: 2
- template: hyena_layer
repeat: 1
- template: mamba_layer
repeat: 2
- template: hyena_layer
repeat: 1
논문 출처
- Poli et al., 2023. "Hyena Hierarchy: Towards Larger Convolutional Language Models." Stanford + Together AI. ICML.
- Nguyen et al., 2023. "HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution." NeurIPS.
- Massaroli et al., 2023. "Laughing Hyena Distillery" — distillation 연구.
- Arc Institute, 2024. "Evo: DNA foundation modeling from molecular to genome scale."