seukseok의 개인 블로그

Google AI Edge Gallery, Gemma 4 오프라인 AI는 어디까지 왔나

· tech

최근 공유된 이야기들만 보면, 마치 Google AI Edge Gallery v1.0.12가 Gemma 4를 처음 모바일에 올린 순간처럼 보이기 쉽다.

그런데 공식 자료를 차근히 대조해보면 결은 조금 다르다.

Gemma 4 지원 자체는 2026년 4월 2일 공개된 v1.0.11에서 먼저 들어왔고, 2026년 4월 24일 공개된 v1.0.12는 Gemma3 1B의 Qualcomm NPU 지원과 SoC별 APK 배포를 붙인 업데이트에 더 가깝다.

이 차이는 생각보다 중요하다. 왜냐하면 이 흐름을 “버전 하나의 화제성”으로 보면 놓치기 쉬운 반면, 구글이 오픈 웨이트 모델, 에이전트 스킬, 멀티모달 입력, 벤치마크를 묶어서 모바일 온디바이스 AI를 실제 개발 표면으로 밀어 올리고 있다고 보면 완전히 다른 그림이 나오기 때문이다.

참고: 본문에 넣은 앱 이미지는 Google AI Edge Gallery 공식 README에 포함된 스크린샷이다.

결론 먼저

내가 보기에 이번 흐름의 핵심은 세 가지다.

날짜부터 바로 정리해야 한다

이 주제는 날짜를 헷갈리면 글 전체가 어긋난다.

GitHub Releases 기준으로 보면:

즉, Gemma 4를 처음 올린 버전기기별 NPU·배포 전략을 강화한 버전은 구분해서 봐야 한다.

이 앱은 정확히 무엇을 보여주고 있나

공식 README와 Google Play 설명을 같이 읽어보면, Google AI Edge Gallery는 단순한 “모바일 LLM 채팅 앱”으로 보기엔 기능 구성이 꽤 공격적이다.

핵심 기능만 추리면 이렇다.

이 구성이 중요한 이유는 분명하다.

예전에는 “폰에서 LLM이 돈다”는 말이 대개 짧은 채팅 데모에 가까웠다. 그런데 지금 Gallery는 입력, 추론, 도구 호출, 디바이스 액션, 벤치마크까지 한 번에 보여준다. 즉, 온디바이스 AI를 앱 기능으로 설계할 때 필요한 최소한의 블록을 거의 다 깔아놓은 셈이다.

실제 앱 화면을 보면 더 감이 온다

공식 README에 포함된 앱 스크린샷을 보면, 구글이 무엇을 보여주고 싶은지 더 직관적으로 읽힌다.

Google AI Edge Gallery 메인 화면 공식 스크린샷
Google AI Edge Gallery 메인 화면. 온디바이스 LLM 활용 흐름을 시작 페이지에서 바로 보여준다.
Google AI Edge Gallery Agent Skills 공식 스크린샷
Agent Skills 실행 화면. 단순 대화를 넘어 도구 호출과 작업 흐름을 시연하는 쪽에 초점이 있다.
Google AI Edge Gallery AI Chat 공식 스크린샷
AI Chat 화면. 멀티턴 대화와 Thinking Mode 같은 흐름을 모바일에서 바로 시험해보는 그림에 가깝다.

v1.0.12가 특히 중요한 이유는 NPU와 배포 때문이다

Gemma 4 자체만 놓고 보면 v1.0.11이 더 상징적인 릴리스였다. 그런데 개발 현실까지 포함하면 v1.0.12도 꽤 중요하다.

GitHub 릴리스 노트 기준으로 v1.0.12는 다음을 보여준다.

이건 사소한 배포 팁이 아니다.

오히려 나는 이 대목이 제일 현실적이라고 본다. 온디바이스 AI는 여전히 모델만 좋다고 끝나는 문제가 아니라,

를 끝까지 같이 봐야 한다.

Google Developers Blog도 같은 맥락에서 AI Edge Gallery에 대해 select Gemma models에 대한 NPU 지원built-in benchmarking tools를 별도로 언급한다. 즉, 이 앱은 단순 체험판이 아니라 하드웨어 성능 검증용 샌드박스 역할도 노리고 있다.

개발자 입장에서 왜 이게 크게 보이냐

이 앱이 흥미로운 건 단지 구글이 앱 하나를 냈기 때문이 아니다.

오픈소스 레퍼런스 앱이라는 점이 핵심이다.

공식 README는 이 프로젝트를 개발자 커뮤니티용 오픈소스 앱으로 설명하고, 위키까지 연결한다. 즉 개발자 입장에서는 다음을 한꺼번에 볼 수 있다.

이건 그냥 “로컬에서 모델 돌려봤다” 수준과는 결이 다르다.

실제로 제품을 만든다고 생각하면, 이제 질문은 이렇게 바뀐다.

Gallery는 이 질문들을 추상적인 발표 슬라이드가 아니라 실제로 만질 수 있는 앱 형태로 보여준다는 점이 크다.

그렇다고 과장하면 안 된다

좋아 보이는 흐름인 건 맞지만, 공식 자료가 스스로 선을 긋는 부분도 있다.

그래서 이 앱을 “모든 휴대폰에서 클라우드급 AI를 대체하는 완성품”처럼 읽으면 과장이다.

대신 이렇게 보는 편이 더 정확하다.

구글이 모바일 온디바이스 AI를 데모 수준에서 한 단계 더 끌어올렸고, 그 기준선을 오픈소스 앱과 릴리스, 벤치마크 경로까지 포함해 공개하기 시작했다.

지금 이 흐름을 어떻게 읽으면 좋을까

내가 보기엔 개발자 입장에서는 세 가지 관점으로 보면 된다.

1) 온디바이스 AI의 기준선이 올라갔다

이제 “모바일 로컬 AI”는 단순 요약이나 챗봇 데모로 끝나지 않는다. 도구 호출, 이미지 입력, 음성 입력, 벤치마크, 기기 액션까지 포함한 작은 에이전트 앱이 기준선에 가까워지고 있다.

2) 성능 최적화는 여전히 모델보다 배포가 더 어렵다

v1.0.12가 보여준 SoC별 APK 구조는 좋은 힌트다. 실제 서비스에서는 모델 선택보다도 칩셋별 경로 최적화와 폴백 설계가 더 큰 일이 될 수 있다.

3) 지금은 “앱을 먼저 만져보는 것”이 제일 빠르다

이 주제는 문서만 읽는 것보다, 실제로 앱을 설치해서

를 직접 보는 편이 훨씬 빠르다.

Google AI Edge Gallery는 바로 그 확인용 출발점으로 꽤 잘 만들어져 있다.

마무리

Google AI Edge Gallery를 보고 나면, 이번 움직임은 단순히 “Gemma 4가 폰에서도 돈다”는 뉴스 한 줄로 요약하기 아깝다.

더 중요한 건 구글이 오픈 웨이트 모델 + 온디바이스 런타임 + 에이전트 스킬 + 기기별 벤치마크를 하나의 공개된 개발자 경험으로 묶고 있다는 점이다.

그리고 2026년 4월 24일의 v1.0.12는 그 흐름에서 “기능 추가”만큼이나 하드웨어 현실과 배포 전략을 드러낸 버전으로 읽힌다.

개인적으로는 바로 이 점 때문에, 이 앱을 단순 체험판보다 모바일 온디바이스 AI의 기준선 데모에 더 가깝게 본다.

참고 자료