KV 캐시이란?

사전적 정의 (Dictionary Definition)

KV 캐시(Key-Value Cache)는 자기회귀(Autoregressive) 방식의 거대 언어 모델(LLM) 추론 과정에서 연산 효율을 높이기 위해 도입된 메모리 최적화 기술입니다. 트랜스포머(Transformer) 아키텍처의 셀프 어텐션(Self-Attention) 계산 시, 이미 생성된 토큰들에 대해 계산된 키(Key)와 값(Value) 텐서를 매번 다시 계산하지 않고 VRAM(비디오 램)에 저장하여 재사용하는 메커니즘을 의미합니다. 이를 통해 새로운 토큰을 생성할 때 발생하는 불필요한 반복 연산을 줄여 추론 지연 시간(Latency)을 유의미하게 단축할 수 있습니다.

실무 사용 예시 (Practical Use Case)

구글의 Gemma 4 및 DeepSeek-V3와 같은 최신 LLM 아키텍처에서 추론 가속화를 위해 활용됩니다. 특히 메인 모델과 가벼운 드래프트 모델이 KV 캐시를 서로 공유하도록 설계함으로써, 모델 간 데이터 전송 효율을 극대화하고 추가적인 메모리 소모를 억제하면서 전체적인 토큰 생성 속도를 높이는 데 사용됩니다.

투기적 디코딩(Speculative Decoding)
어텐션 메커니즘(Attention Mechanism)
추론 최적화(Inference Optimization)
VRAM(Video Random Access Memory)

Edit page

KV 캐시이란?

KV 캐시이란?

사전적 정의 (Dictionary Definition)

실무 사용 예시 (Practical Use Case)

관련 단어 (Related Words)

🔗 함께 읽으면 좋은 글