단일 토큰의 지배: 네이티브 멀티모달이 재정의하는 인공지능의 지표

Updated: 29 Apr, 2026

그동안의 멀티모달 AI는 텍스트 중심의 거대언어모델(LLM)에 시각 정보를 처리하는 별도의 비전 인코더를 어댑터로 기워 붙인 구조에 가까웠다. 이는 서로 다른 언어를 쓰는 두 모델 사이의 불완전한 소통을 전제로 한다. 반면 최근 급부상한 네이티브 멀티모달 아키텍처는 설계 단계부터 텍스트, 이미지, 비디오를 동일한 토큰 체계 내에서 동시 학습시킨다. 이는 인공지능이 인간처럼 세상을 통합적으로 인지하기 위한 구조적 정체성을 확보했음을 의미한다.

네이티브 멀티모달 (Native Multimodal) - 시각과 언어 기능이 분리된 기존 AI 방식과 하나로 통합된 차세대 멀티모달 AI 방식을 비교한 기술 구조도입니다.

효율과 확장의 공존, Qwen3.5와 Emu3.5의 설계 철학

알리바바가 공개한 Qwen3.5는 통합 모델의 기술적 지향점을 선명하게 보여준다. 약 3,970억 개의 파라미터를 보유하면서도 전문가 혼합(MoE) 구조를 채택해 실제 추론 시에는 단 4.28%(약 170억 개)의 파라미터만 활성화한다. 이러한 설계는 연산 효율을 극대화하면서도 네이티브 시각-언어 모델로서의 성능을 유지하는 핵심 동력이 된다. 특히 256K에 달하는 컨텍스트 길이는 복잡한 웹 인터페이스나 모바일 UI를 심도 있게 탐색하는 에이전틱 AI로서의 활용 가능성을 뒷받침한다.

이와 궤를 같이하는 BAAI의 Emu3.5는 10조 개 이상의 멀티모달 토큰을 학습하며 데이터 통합의 정점을 찍었다. 이 모델은 비디오의 연속 프레임과 스크립트를 통합된 ‘다음 토큰 예측(Next-token Prediction)’ 목적으로 학습했는데, 이는 텍스트를 생성하듯 자연스럽게 다음 이미지 프레임을 예측하는 수준을 구현한다. 여기에 이산 확산 적응(DiDA) 기술을 도입해 기존의 느린 순차적 디코딩을 병렬 예측으로 전환함으로써, 시각적 품질 저하 없이 이미지당 추론 속도를 기존 대비 20배가량 높이는 데 성공했다.

인코더를 제거한 엔드투엔드 패러다임의 명암

SenseTime과 NTU가 협업한 NEO-unify는 더욱 파격적인 접근을 취한다. 기존 멀티모달 AI의 필수 요소였던 비전 인코더와 변이형 오토인코더를 과감히 제거하고, 픽셀 데이터와 텍스트를 직접 연결하는 엔드투엔드 방식을 제안했다. NEO-unify 2B 모델이 MS COCO 2017 데이터셋에서 기록한 31.56 PSNR과 0.85 SSIM 수치는 별도의 인코더 없이도 정밀한 시각적 구현이 가능함을 입증한다.

다만 이러한 통합 구조는 시스템 통제 가능성 측면에서 새로운 과제를 던진다. 기존 모듈형 구조에서는 비전 인코더의 출력값을 검증하거나 특정 지점에서 개입하는 것이 가능했으나, 모든 연산이 하나의 신경망 안에서 이루어지는 환경에서는 내부의 논리적 오류를 파악하거나 수정하기가 한층 까다로워지기 때문이다.

기존 방식 (Modular/Adapter)
- 아키텍처: LLM과 독립된 비전 인코더를 인터페이스로 연결
- 데이터 처리: 모달리티별 분리된 임베딩 공간 사용
- 장점: 개발 속도가 빠르고 구성 요소별 최적화 및 교체 용이
- 단점: 모달리티 간 유기적인 정보 결합 및 정교한 의도 파악의 한계
네이티브 멀티모달 (Native Unified)
- 아키텍처: 단일 신경망 내에서 모든 데이터 유형 통합 학습 및 추론
- 데이터 처리: 통합된 토큰 레이아웃 및 공유 임베딩 공간 확보
- 장점: 모달리티 간 상호 이해도와 추론 성능의 비약적 향상
- 단점: 막대한 학습 비용 및 내부 연산 과정의 불투명성 증가

네이티브 멀티모달 (Native Multimodal) - 트랜스포머 모델 내에서 이미지와 텍스트 정보가 서로 어떻게 연관되어 상호작용하는지 보여주는 히트맵 시각화입니다.

좁은 문(Narrow Gate)과 인프라의 장벽

최근 ‘The Narrow Gate’ 연구는 네이티브 모델의 운영 효율성에 대한 흥미로운 시사점을 제공한다. 이 모델들이 이미지와 텍스트를 처리할 때, 시각 정보를 텍스트 도메인으로 전달하는 통로가 의외로 협소하다는 사실이 밝혀진 것이다. 비네이티브 모델이 수많은 이미지 토큰을 통해 정보를 분산 전달하는 것과 달리, 네이티브 아키텍처는 특정 포스트-이미지 토큰 하나에 핵심 정보를 압축하는 경향을 보인다.

이러한 압축 기술은 연산 효율 측면에서는 우수하지만, 해당 토큰에 미세한 노이즈만 유입되어도 전체 시각 정보 해석이 무너지는 보안 및 신뢰성 문제를 야기할 수 있다. 또한 NVIDIA Blackwell 기반의 하이엔드 인프라를 요구하는 비용 구조는 기술 확산의 실질적인 장벽이다. 구글 제미나이가 보여준 상황 인지 능력은 놀랍지만, 이를 뒷받침하기 위한 데이터 센터 구축 및 운영 비용은 일반적인 엔터프라이즈 환경에서 감당하기 어려운 수준이다.

결국 네이티브 멀티모달의 기술적 우아함 뒤에는 천문학적 인프라 비용과 검증된 모듈을 제거하며 발생하는 추론의 불확실성이 공존한다. 기업들은 화려한 벤치마크 지표보다 비용 대비 효율이 검증된 특화 모델 사이에서 현실적인 선택을 고민해야 할 시점이다. 인공지능이 세상을 하나의 논리로 이해하게 된 대가는, 예상보다 훨씬 높은 기술적 부채와 운영 리스크를 동반하고 있다.