·

Gemma 4 AI 모델이 출시되었습니다.


팀 아울로입니다.

구글이 4월 3일, 새로운 AI 모델인 Gemma 4를 공개했습니다. Gemini 3와 동일한 연구 기술을 기반으로 만들어진 오픈 모델로, 상업적 사용, 수정, 재배포가 모두 자유로운 라이선스로 출시하였습니다. 로컬 AI를 사용하는 Owllo 유저 여러분에게는 꽤 의미 있는 소식이니, 각 모델별 특징과 내 PC에 맞는 선택 기준을 정리해드리겠습니다.

각기다른 4가지 모델, 뭐가 다를까?

Gemma 4 AI모델은 는 E2B, E4B, 26B MoE, 31B Dense 총 네 가지 크기로 출시되었습니다. 텍스트와 이미지 입력을 모두 처리하며 작은 모델에서는 오디오 입력도 지원합니다.

먼저 E2B, 가장 가벼운 모델입니다. 8GB RAM 노트북, 라즈베리 파이에서도 동작할 정도로 진입 장벽이 낮습니다. 간단한 질의응답이나 가벼운 작업에 적합하지만, 깊은 추론 능력을 기대하기는 어려웠습니다. 하지만, 저희 아울로팀에서 사용해본 결과로는 동급 대비 매우 훌륭하다는 느낌이었습니다. 특히 한국어 능력도 꽤 괜찮았습니다.

그리고 E4B, 최소 6GB VRAM이면 돌아가면서도 이전 세대인 Gemma 3 27B를 벤치마크에서 앞서는 성능을 보여준다고 합니다. 대부분의 사용자에게 가장 균형 잡힌 선택지입니다. 이미지, 텍스트는 물론 오디오 입력까지 지원하며, 컨텍스트라고 부르는 단기기억 역시 훌륭한 수준이었습니다. 저희도 베타기간 동안에는 저희 자체 모델과 함께 이 AI 모델을 기본으로 제공하려고 합니다.

이제부터는 조금 일반 컴퓨터 환경에서는 사용이 쉽지 않은 모델입니다. 바로 26B MoE 인데요, 이번 릴리스에서 가장 주목할 모델이라고 합니다. 260억 파라미터 중 추론 시에는 30억 개만 활성화되는 경량화 구조라서, 모델 크기 대비 훨씬 적은 자원으로 빠르게 동작합니다. 4비트 양자화 기준 약 18GB 메모리면 구동되고, 256K 컨텍스트 윈도우를 지원한다고 합니다. 하지만, 저희가 사용해 본 결과로는 최소 24GB의 RAM은 구성하고 있어야 실행이 된다고 할 수 있겠다 싶었습니다.

마지막으로 31B Dense, 현재 오픈 모델 중 3위에 오른 최고 품질 모델입니다. 다만 4비트 기준으로도 약 20GB 메모리가 필요하고, 컨텍스트를 길게 쓸수록 메모리 소비가 크게 증가합니다. RTX 4090이나 32GB 이상 Apple Silicon Mac 사용자에게 적합합니다. 그러나 역시 저희가 사용한 바로는 조금 더 높은 사양이 필요했던 것도 사실입니다.

내 PC 사양별 추천

8GB RAM 이하라면 E2B 또는 E4B의 4비트 양자화 버전부터 시작하세요. 16~20GB 환경이라면 E4B를 8비트로 돌리거나 26B MoE를 4비트로 시도해볼 수 있습니다. 24GB 이상 GPU를 가지고 계시다면 31B Dense까지 사용 가능합니다.

Apple Silicon Mac 사용자라면 CPU와 GPU가 메모리를 공유하는 메모리 구조 덕분에 같은 RAM 용량을 가진 Windows PC보다 더 유리합니다. E2B와 E4B의 4비트 버전은 8GB 메모리의 맥북 에어에서도 구동됩니다.

GPU 없이 CPU만으로도 가능할까요? 가능은 합니다만, 사실 사용이 원활할 것을 기대해서는 안 됩니다. 무엇보다 텍스트 생성 속도가 대략적으로 한글 기준 초당 2-3자 정도로 느려지기 때문에, 테스트 용도로는 괜찮지만 일상적으로 쓰기에는 E2B나 E4B를 추천드립니다. 상상해보세요. 글자는 초당 두 세글자가 나오는데, 컴퓨터는 엄청 뜨거워진다고 생각하면 …

우리 아울로에게 의미하는 것

Gemma 4의 출시는 로컬 AI 생태계에 좋은 신호입니다. 특히 E4B처럼 가벼우면서도 이전 세대 대형 모델을 넘어서는 성능을 보여주는 모델이 등장했다는 것은, 내 PC에서 돌아가는 AI의 가능성이 점점 커지고 있다는 뜻이니까요. Owllo 팀에서도 Gemma 4 모델을 모두 제공하고 있으며, 모델 라이브러리를 통해 제공하고 있습니다. 베타 기간 중에는 아마도(?) 기본 모델로 제공해드리지 않을까 합니다.


← 뒤로가기