Google AI Edge Gallery, Gemma 4 오프라인 AI는 어디까지 왔나

2026. 4. 26. · tech

최근 공유된 이야기들만 보면, 마치 Google AI Edge Gallery v1.0.12가 Gemma 4를 처음 모바일에 올린 순간처럼 보이기 쉽다.

그런데 공식 자료를 차근히 대조해보면 결은 조금 다르다.

Gemma 4 지원 자체는 2026년 4월 2일 공개된 v1.0.11에서 먼저 들어왔고, 2026년 4월 24일 공개된 v1.0.12는 Gemma3 1B의 Qualcomm NPU 지원과 SoC별 APK 배포를 붙인 업데이트에 더 가깝다.

이 차이는 생각보다 중요하다. 왜냐하면 이 흐름을 “버전 하나의 화제성”으로 보면 놓치기 쉬운 반면, 구글이 오픈 웨이트 모델, 에이전트 스킬, 멀티모달 입력, 벤치마크를 묶어서 모바일 온디바이스 AI를 실제 개발 표면으로 밀어 올리고 있다고 보면 완전히 다른 그림이 나오기 때문이다.

참고: 본문에 넣은 앱 이미지는 Google AI Edge Gallery 공식 README에 포함된 스크린샷이다.

결론 먼저

내가 보기에 이번 흐름의 핵심은 세 가지다.

로컬 챗 데모 수준을 넘기 시작했다. Prompt Lab, Ask Image, Audio Scribe, Agent Skills, Mobile Actions, Benchmark가 한 앱 안에 묶여 있다.
버전 1.0.12의 진짜 포인트는 배포 현실화다. Qualcomm 계열 NPU 지원과 SoC별 APK 분화는 “실제 기기별 성능 차이”를 정면으로 다루기 시작했다는 뜻이다.
개발자용 레퍼런스 앱 가치가 크다. 단순 마케팅 데모가 아니라, 오픈소스 앱과 위키, 릴리스 노트, 벤치마크 경로를 같이 공개하고 있다.

날짜부터 바로 정리해야 한다

이 주제는 날짜를 헷갈리면 글 전체가 어긋난다.

GitHub Releases 기준으로 보면:

2026년 4월 2일, v1.0.11
- Gemma 4 지원 추가
- Agent Skills 추가
- Thinking Mode 추가
2026년 4월 24일, v1.0.12
- Gemma3 1B의 Qualcomm Technologies SoC용 NPU 지원 추가
- SoC별 APK 배포
- 버그 수정
Google Play 업데이트 날짜도 2026년 4월 24일
- 스토어 설명은 여전히 Gemma 4를 전면에 내세우고 있음
- 다만 “What’s new”는 Gemma3 1B NPU 지원과 버그 수정을 적고 있음

즉, Gemma 4를 처음 올린 버전과 기기별 NPU·배포 전략을 강화한 버전은 구분해서 봐야 한다.

이 앱은 정확히 무엇을 보여주고 있나

공식 README와 Google Play 설명을 같이 읽어보면, Google AI Edge Gallery는 단순한 “모바일 LLM 채팅 앱”으로 보기엔 기능 구성이 꽤 공격적이다.

핵심 기능만 추리면 이렇다.

Agent Skills: 위키피디아, 지도, 요약 카드 같은 도구를 붙여 모델을 대화형 챗봇 이상으로 확장
AI Chat with Thinking Mode: 멀티턴 대화와 reasoning 과정 보기
Ask Image: 이미지 기반 질의
Audio Scribe: 온디바이스 음성 전사와 번역
Prompt Lab: temperature, top-k 같은 파라미터를 만져보는 실험 공간
Mobile Actions: 자연어 기반 오프라인 디바이스 제어 실험
Model Management & Benchmark: 기기별 모델 성능 확인과 비교
100% On-Device Privacy: 모델 추론을 기기 내에서 처리

이 구성이 중요한 이유는 분명하다.

예전에는 “폰에서 LLM이 돈다”는 말이 대개 짧은 채팅 데모에 가까웠다. 그런데 지금 Gallery는 입력, 추론, 도구 호출, 디바이스 액션, 벤치마크까지 한 번에 보여준다. 즉, 온디바이스 AI를 앱 기능으로 설계할 때 필요한 최소한의 블록을 거의 다 깔아놓은 셈이다.

실제 앱 화면을 보면 더 감이 온다

공식 README에 포함된 앱 스크린샷을 보면, 구글이 무엇을 보여주고 싶은지 더 직관적으로 읽힌다.

Google AI Edge Gallery 메인 화면 공식 스크린샷 — Google AI Edge Gallery 메인 화면. 온디바이스 LLM 활용 흐름을 시작 페이지에서 바로 보여준다.

Google AI Edge Gallery Agent Skills 공식 스크린샷 — Agent Skills 실행 화면. 단순 대화를 넘어 도구 호출과 작업 흐름을 시연하는 쪽에 초점이 있다.

Google AI Edge Gallery AI Chat 공식 스크린샷 — AI Chat 화면. 멀티턴 대화와 Thinking Mode 같은 흐름을 모바일에서 바로 시험해보는 그림에 가깝다.

v1.0.12가 특히 중요한 이유는 NPU와 배포 때문이다

Gemma 4 자체만 놓고 보면 v1.0.11이 더 상징적인 릴리스였다. 그런데 개발 현실까지 포함하면 v1.0.12도 꽤 중요하다.

GitHub 릴리스 노트 기준으로 v1.0.12는 다음을 보여준다.

Gemma3 1B에 대한 Qualcomm NPU 지원
Play Store 사용자는 자동 번들링 경로 사용
APK 직접 설치 사용자는 SoC별 파일을 골라 설치해야 함
sm8550, sm8650, sm8750, sm8850처럼 칩셋 계열별로 파일이 나뉨

이건 사소한 배포 팁이 아니다.

오히려 나는 이 대목이 제일 현실적이라고 본다. 온디바이스 AI는 여전히 모델만 좋다고 끝나는 문제가 아니라,

어떤 칩셋인지
어떤 NPU 경로를 타는지
어떤 런타임 라이브러리가 묶이는지
어떤 기기에서 어느 정도 발열과 속도가 나오는지

를 끝까지 같이 봐야 한다.

Google Developers Blog도 같은 맥락에서 AI Edge Gallery에 대해 select Gemma models에 대한 NPU 지원과 built-in benchmarking tools를 별도로 언급한다. 즉, 이 앱은 단순 체험판이 아니라 하드웨어 성능 검증용 샌드박스 역할도 노리고 있다.

개발자 입장에서 왜 이게 크게 보이냐

이 앱이 흥미로운 건 단지 구글이 앱 하나를 냈기 때문이 아니다.

오픈소스 레퍼런스 앱이라는 점이 핵심이다.

공식 README는 이 프로젝트를 개발자 커뮤니티용 오픈소스 앱으로 설명하고, 위키까지 연결한다. 즉 개발자 입장에서는 다음을 한꺼번에 볼 수 있다.

어떤 기능 조합이 실제 앱 표면으로 올라오는지
모델 다운로드, 관리, 벤치마크를 어떻게 앱 안에 넣는지
Agent Skills 같은 도구 확장 경로를 어떻게 여는지
온디바이스 경로와 클라우드 경로를 어디서 나눌지

이건 그냥 “로컬에서 모델 돌려봤다” 수준과는 결이 다르다.

실제로 제품을 만든다고 생각하면, 이제 질문은 이렇게 바뀐다.

우리 서비스는 어떤 기능까지 로컬에서 처리할 수 있나
어느 기기까지 성능이 나오는가
CPU, GPU, NPU 폴백 전략은 어떻게 짜야 하나
reasoning, vision, speech를 한 앱 안에서 어떻게 섞을 것인가
개인정보 민감 기능은 어디까지 오프라인으로 밀 수 있나

Gallery는 이 질문들을 추상적인 발표 슬라이드가 아니라 실제로 만질 수 있는 앱 형태로 보여준다는 점이 크다.

그렇다고 과장하면 안 된다

좋아 보이는 흐름인 건 맞지만, 공식 자료가 스스로 선을 긋는 부분도 있다.

README는 이 앱을 experimental Beta release라고 부른다.
Google Play 설명도 성능이 기기 CPU/GPU에 따라 달라진다고 적고 있다.
“완전 오프라인”도 모델을 내려받은 뒤의 추론 경로를 말하는 것이지, 모든 준비 과정까지 공짜로 사라진다는 뜻은 아니다.
Mobile Actions는 README 기준 FunctionGemma 270m 파인튜닝 모델을 쓴다. 즉 모든 기능이 Gemma 4 하나로 통일된 구조는 아니다.

그래서 이 앱을 “모든 휴대폰에서 클라우드급 AI를 대체하는 완성품”처럼 읽으면 과장이다.

대신 이렇게 보는 편이 더 정확하다.

구글이 모바일 온디바이스 AI를 데모 수준에서 한 단계 더 끌어올렸고, 그 기준선을 오픈소스 앱과 릴리스, 벤치마크 경로까지 포함해 공개하기 시작했다.

지금 이 흐름을 어떻게 읽으면 좋을까

내가 보기엔 개발자 입장에서는 세 가지 관점으로 보면 된다.

1) 온디바이스 AI의 기준선이 올라갔다

이제 “모바일 로컬 AI”는 단순 요약이나 챗봇 데모로 끝나지 않는다. 도구 호출, 이미지 입력, 음성 입력, 벤치마크, 기기 액션까지 포함한 작은 에이전트 앱이 기준선에 가까워지고 있다.

2) 성능 최적화는 여전히 모델보다 배포가 더 어렵다

v1.0.12가 보여준 SoC별 APK 구조는 좋은 힌트다. 실제 서비스에서는 모델 선택보다도 칩셋별 경로 최적화와 폴백 설계가 더 큰 일이 될 수 있다.

3) 지금은 “앱을 먼저 만져보는 것”이 제일 빠르다

이 주제는 문서만 읽는 것보다, 실제로 앱을 설치해서

어떤 모델이 뜨는지
어떤 기능이 기기에서 열리는지
Prompt Lab이 어느 정도 속도로 도는지
벤치마크가 어떤 차이를 보여주는지

를 직접 보는 편이 훨씬 빠르다.

Google AI Edge Gallery는 바로 그 확인용 출발점으로 꽤 잘 만들어져 있다.

마무리

Google AI Edge Gallery를 보고 나면, 이번 움직임은 단순히 “Gemma 4가 폰에서도 돈다”는 뉴스 한 줄로 요약하기 아깝다.

더 중요한 건 구글이 오픈 웨이트 모델 + 온디바이스 런타임 + 에이전트 스킬 + 기기별 벤치마크를 하나의 공개된 개발자 경험으로 묶고 있다는 점이다.

그리고 2026년 4월 24일의 v1.0.12는 그 흐름에서 “기능 추가”만큼이나 하드웨어 현실과 배포 전략을 드러낸 버전으로 읽힌다.

개인적으로는 바로 이 점 때문에, 이 앱을 단순 체험판보다 모바일 온디바이스 AI의 기준선 데모에 더 가깝게 본다.

참고 자료

Google AI Edge Gallery GitHub README
https://github.com/google-ai-edge/gallery
Google AI Edge Gallery GitHub Release 1.0.11
https://github.com/google-ai-edge/gallery/releases/tag/1.0.11
Google AI Edge Gallery GitHub Release 1.0.12
https://github.com/google-ai-edge/gallery/releases/tag/1.0.12
Google Play, Google AI Edge Gallery
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery
Google Developers Blog, Building real-world on-device AI with LiteRT and NPU
https://developers.googleblog.com/building-real-world-on-device-ai-with-litert-and-npu/