Google이 Gemini 3 Flash에 “Agentic Vision”이라는 혁신적인 기능을 추가했습니다. 이미지를 단순히 보는 것을 넘어, AI가 스스로 코드를 작성해 이미지를 분석하고 조작하는 완전히 새로운 차원의 비전 AI입니다.
Agentic Vision이란?
기존 AI는 이미지를 보고 설명하는 수준에 머물렀습니다. Agentic Vision은 완전히 다릅니다. AI가 시각적 추론과 코드 실행을 결합하여, 이미지 속 정보를 능동적으로 조사하고 검증합니다.
“Agentic Vision은 정적인 시각 처리를 능동적인 조사로 전환합니다. 시각적 추론과 코드 실행을 결합하여 시각적 근거에 기반한 답변을 제공합니다.”
– Google 공식 발표
핵심 작동 원리: Think-Act-Observe 루프
Agentic Vision은 반복적인 3단계 루프로 작동합니다:
| 🧠 Think (생각) 사용자 질문과 이미지를 분석하고 다단계 계획 수립 | ⚡ Act (실행) Python 코드를 생성·실행해 이미지를 자르고, 회전하고, 주석 추가 | 👁️ Observe (관찰) 수정된 이미지를 다시 확인하고 필요시 루프 반복 |
주요 기능 4가지
1. 줌 & 세밀 검사
모델이 세부 사항이 너무 작다는 것을 자동으로 감지합니다. 예를 들어 먼 거리의 계기판이나 시리얼 번호를 읽어야 할 때, 스스로 코드를 작성해 해당 영역을 크롭하고 고해상도로 재검사합니다.
2. 이미지 주석(Annotation)
이미지 위에 직접 화살표, 바운딩 박스, 숫자 라벨을 그립니다. 예: 손가락 개수를 셀 때, 각 손가락에 바운딩 박스와 번호를 그려 픽셀 단위의 정확한 카운팅을 수행합니다.
3. 시각적 수학 & 데이터 플로팅
영수증의 항목 합산, 추출된 데이터로 Matplotlib 차트 생성 등 다단계 계산을 코드로 실행합니다. 기존 LLM이 시각적 산술에서 환각을 보이는 문제를 결정론적 Python 환경으로 우회합니다.
4. Thinking Level 제어
thinking_level 파라미터로 내부 추론 수준을 minimal, low, medium, high 중 선택. 응답 품질, 지연 시간, 비용 간 균형을 조절합니다.
성능 벤치마크
| 항목 | 수치 | 의미 |
|---|---|---|
| 비전 벤치마크 향상 | +5~10% | 코드 실행 활성화 시 대부분의 비전 벤치마크에서 일관된 향상 |
| SWE-bench Verified | 78% | 2.5 시리즈와 Gemini 3 Pro까지 능가하는 코딩 성능 |
| 실제 사례 | +5% 정확도 | PlanCheckSolver (건축 도면 검증 플랫폼)에서 실증 |
기존 비전 AI vs Agentic Vision
| 기능 | 기존 비전 AI | Agentic Vision |
|---|---|---|
| 이미지 분석 | 한 번 보고 답변 | ✅ 반복적으로 분석·검증 |
| 세부 검사 | 고정 해상도 | ✅ 자동 줌 & 크롭 |
| 수학 연산 | 환각 발생 가능 | ✅ Python 코드로 정확 계산 |
| 이미지 조작 | ❌ 불가 | ✅ 주석, 회전, 크롭 가능 |
| 접근 방식 | 정적(Static) | ✅ 능동적 조사(Agentic) |
Gemini 3 Flash 추가 신기능
- Media Resolution 제어:
media_resolution파라미터로 low/medium/high/ultra high 선택 – 토큰 사용량과 지연 시간 조절 - 멀티모달 함수 응답: 텍스트뿐 아니라 이미지, PDF 등 멀티모달 객체를 함수 응답에 포함 가능
- SWE-bench 78%: 코딩 성능에서 Gemini 2.5 시리즈와 3 Pro까지 능가
사용 방법
Agentic Vision은 지금 바로 사용할 수 있습니다:
| 1 | Gemini API Google AI Studio 또는 Vertex AI에서 API 호출 |
| 2 | Gemini 앱 모델 드롭다운에서 “Thinking” 선택 (순차 배포 중) |
| 3 | AI Studio Playground Tools 아래에서 “Code Execution”을 켜면 즉시 체험 가능 |
향후 계획
Google은 Agentic Vision을 더욱 발전시킬 예정입니다:
- 웹 검색 & 역이미지 검색 도구를 Gemini 모델에 추가 예정
- Flash를 넘어 더 큰 모델로 Agentic Vision 확장 계획
- 현재 명시적 프롬프트가 필요한 기능(이미지 회전, 시각적 수학)을 완전 암묵적으로 작동하도록 업데이트 예정
결론: 비전 AI의 패러다임 전환
Gemini 3 Flash의 Agentic Vision은 단순한 기능 업그레이드가 아닙니다. “보는 AI”에서 “조사하는 AI”로의 패러다임 전환입니다.
기존 비전 AI가 이미지를 한 번 보고 답변하는 수준이었다면, Agentic Vision은 스스로 코드를 작성해 이미지를 자르고, 확대하고, 주석을 달고, 계산한 뒤 다시 확인합니다. 마치 인간 전문가가 이미지를 분석하는 과정을 AI가 그대로 재현하는 것입니다.
특히 건축 도면 검증, 의료 이미지 분석, 문서 데이터 추출 등 정밀한 시각적 분석이 필요한 산업에서 게임 체인저가 될 것으로 보입니다.
Agentic Vision 직접 체험하기
Google AI Studio에서 무료로 사용해볼 수 있습니다
참고 자료
- Google Blog – Introducing Agentic Vision in Gemini 3 Flash
- 9to5Google – Gemini 3 Flash’s new ‘Agentic Vision’ improves image responses
- BusinessToday – Gemini Flash 3 gets ‘Agentic Vision’ for smarter image responses
- Google Blog – Introducing Gemini 3 Flash: Benchmarks, global availability
- Gemini 3 Developer Guide – Google AI for Developers