구글 제미나이 3.0, GPT-5.1 제치고 수능 테스트 1위! 진짜 AI 지능의 승부

2025년 11월, 구글이 공개한 Gemini 3.0이 오픈AI의 GPT-5.1을 제치고 ‘2026 수학능력시험 AI 테스트’에서 1위를 차지했습니다. Gemini 3 Pro는 450점 만점에 440.2점을 기록하며 GPT-5.1(435.5점)을 앞섰고, 특히 국어 영역 100점, 영어 100점을 달성하며 인간 평균을 능가했습니다. 이번 성과는 구글의 멀티모달·에이전트·코딩 성능 강화 결과로, AI 지능의 ‘실제 활용력’ 경쟁이 본격화되었음을 보여줍니다.

구글 제미나이 3.0의 정식 출시

구글은 2025년 11월 18일(현지시간) 최신 AI 모델 Gemini 3를 공식 발표했습니다. 이번 모델은 기존 Gemini 2.5 이후 7개월 만의 업그레이드로, AI 검색·AI 스튜디오·버텍스 AI 개발자 플랫폼·제미나이 앱에 바로 적용되었습니다. 또한 새로운 개발자 플랫폼 Google Antigravity를 통해 ‘에이전트 기반 코딩 환경’을 구축하며 AI의 자율 실행력을 크게 높였습니다.

CEO 순다 피차이는 “AI가 이제 텍스트를 읽는 수준을 넘어, 상황을 인식하고 주변 환경을 이해하는 단계에 이르렀다”고 강조했습니다. 딥마인드 CEO 데미스 허사비스 역시 “Gemini 3는 현재 세계에서 가장 강력한 멀티모달·에이전트·코딩 AI”라며 “추론의 깊이와 감정적 반응까지 자연스러워졌다”고 밝혔습니다.

‘AI 수능 테스트(The Last Test)’란?

AI 수능 테스트(The Last Test)는 AI Benchmark Research Group이 주관하는 AI 종합 지능 평가로, 단순한 문제 풀이가 아닌 언어·수리·추론·창의력·윤리 판단을 종합적으로 측정합니다.

항목	평가 내용	출제 비율
언어 이해	국어·논리·비판적 독해	25%
수리 추론	수학적 사고 및 계산 정확도	20%
과학적 사고	물리·생물·기후 논리	20%
사회·윤리	인간 가치와 윤리적 추론	15%
창의적 문제 해결	논문 요약, 아이디어 생성	20%

💡 이 테스트는 “AI가 인간처럼 사고하고 응용할 수 있는가”를 검증하는 사실상 AI 업계의 ‘수능’이라 불립니다.

제미나이 3.0 vs GPT-5.1 — 실측 성능 비교

항목	Gemini 3 Pro	GPT-5.1
총점 (450점 만점)	440.2점	435.5점
국어 영역	100점	98.9점
수학 영역	98.7점	100점
영어 영역	100점	100점
추론 모드(HLE)	37.5% → DeepSync 모드 41%	31.6%
멀티모달 이해력(MMMU-Pro)	81%	74%
비디오 이해(Video-MMMU)	87.6%	78%

특히, 국어 100점 달성은 인간 수험생 평균보다 높은 수준이며, AI의 언어 이해력과 맥락 파악 능력이 크게 개선된 결과로 평가됩니다. GPT-5.1은 여전히 수학·논리 영역에서는 강세를 보였지만, 멀티모달 통합 이해력에서는 제미나이가 확실한 우위를 점했습니다.

DeepThink(딥 싱크) 모드의 핵심

Gemini 3 DeepThink는 기존 Gemini Pro의 확장판으로, AI가 질문 하나를 여러 논리 경로로 분석해 스스로 결론을 도출합니다. 이 모드에서는 ‘인류의 마지막 시험(HLE)’에서 41%의 정확도를 기록했으며, 심지어 AGI 테스트(ARC-AGI-2)에서도 45.1%로 사상 최고치를 달성했습니다.

이는 AI가 단순 정답 예측을 넘어 ‘이유 있는 사고(reasoned inference)’를 수행하기 시작했음을 의미합니다.

AI 에이전트 기능 — 실생활로 확장된 AI

제미나이 3는 강력한 에이전트 코딩 및 자동화 능력을 갖췄습니다. ‘Vending-Bench 2’라는 장기 시뮬레이션에서 AI가 1년간 자판기 사업을 관리하며 일관된 수익 증가율을 기록했습니다. 이는 AI가 단순히 ‘지시를 이해’하는 단계를 넘어 ‘목표 달성을 위한 판단과 실행’을 스스로 수행했다는 의미입니다.

또한, Google Antigravity 플랫폼을 통해 에디터·터미널·브라우저를 통합 제어하는 AI 코딩 환경을 제공, 개발자들은 “하루 생산성이 40% 이상 향상됐다”고 평가했습니다.

AI 시장 반응과 전망

AI Times와 The Verge는 “Gemini 3의 등장은 AI 경쟁의 중심이 ‘언어’에서 ‘행동’으로 옮겨졌음을 보여준다”고 평가했습니다. 전문가들은 이번 수능 테스트 결과가 AI의 학습형 지능에서 실행형 지능(Actional Intelligence)으로의 전환점을 상징한다고 분석합니다.

2026 수능 테스트 결과는 단순히 “누가 더 똑똑한가”의 싸움이 아닙니다. 이제 AI는 인간처럼 이해하고, 생각하며, 행동할 수 있는 단계로 진입했습니다. Gemini 3와 GPT-5.1의 경쟁은 인공지능이 ‘도구에서 동료’로 진화하고 있음을 보여주는 새로운 이정표입니다.

ChatGPT 5.1 업데이트 완전 정리｜이전 버전과 달라진 핵심 변화 7가지

2025년 11월 공개된 ChatGPT 5.1은 “더 똑똑하고 따뜻한 대화”를 목표로 한 OpenAI의 최신 버전입니다. GPT-5 대비 향상된 추론력, 감성형 대화 톤, 개인화 옵션, 그리고 두 가지 모델(GPT-5.1 Instant / Thinki

goldnwanderer.com

아이폰 실시간 번역 & ChatGPT 완전 정리｜AirPods 활용법까지 한눈에!

iOS 26에서는 Apple Intelligence와 ChatGPT가 통합되어 아이폰, 아이패드, 그리고 AirPods에서 바로 실시간 번역과 AI 대화를 이용할 수 있습니다. 아이폰 초보자도 쉽게 따라 할 수 있도록 단계별 설정법을

goldnwanderer.com

구글 제미나이 AI : 무료로 즐기는 그림 그리기 완벽 가이드

구글 제미나이(Gemini)는 구글이 개발한 차세대 생성형 AI로, 텍스트뿐 아니라 고품질 이미지를 생성할 수 있는 기능을 제공합니다. 특히 Imagen 3 기반의 이미지 생성 기능은 디테일과 색감이 뛰어

goldnwanderer.com

'생산성 앱 & 테크 응용하기' 카테고리의 다른 글

큐알 코드 스캔하는법 완벽 정리｜스마트폰으로 찍기·만들기·활용까지 (2025 최신) (0)	2025.11.30
유튜브 프리미엄 라이트 등장｜광고만 없애는 합리형 구독 서비스 출시 예고 (0)	2025.11.29
구글 ‘나노 바나나 프로’ 출시! 텍스트 넘어 ‘보는 AI’ 시대 개막 (0)	2025.11.26
아이폰 사진이 애플워치에 왜 자동으로 뜰까? 원인과 해결법 총정리 (iOS 26 기준) (0)	2025.11.18
ChatGPT 5.1 업데이트 완전 정리｜이전 버전과 달라진 핵심 변화 7가지 (0)	2025.11.13
아이폰 실시간 번역 & ChatGPT 완전 정리｜AirPods 활용법까지 한눈에! (0)	2025.11.11

골든배럴

구글 제미나이 3.0, GPT-5.1 제치고 수능 테스트 1위! 진짜 AI 지능의 승부

구글 제미나이 3.0의 정식 출시

‘AI 수능 테스트(The Last Test)’란?

제미나이 3.0 vs GPT-5.1 — 실측 성능 비교

DeepThink(딥 싱크) 모드의 핵심

AI 에이전트 기능 — 실생활로 확장된 AI

AI 시장 반응과 전망

'생산성 앱 & 테크 응용하기' 카테고리의 다른 글

티스토리툴바

구글 제미나이 3.0, GPT-5.1 제치고 수능 테스트 1위! 진짜 AI 지능의 승부

구글 제미나이 3.0의 정식 출시

‘AI 수능 테스트(The Last Test)’란?

제미나이 3.0 vs GPT-5.1 — 실측 성능 비교

DeepThink(딥 싱크) 모드의 핵심

AI 에이전트 기능 — 실생활로 확장된 AI

AI 시장 반응과 전망

'생산성 앱 & 테크 응용하기' 카테고리의 다른 글

관련글

티스토리툴바