어제(11월 13일), 한국 사회는 다시 한번 거대한 수능일을 치렀습니다. 50만 명이 응시한 이번 시험은 AI 시대 수능의 유효성에 대한 근본적인 질문을 던집니다. 경찰 사이렌이 수험생을 실어 나르고, 전국의 항공기 이착륙이 통제되며, 50만 명의 수험생이 같은 시간에 같은 문제지를 펴고 다섯 개 보기 중 단 하나의 정답을 찾았습니다. 이 단 하루를 위해 국가 전체가 움직이는 이 거대한 이벤트는, 그 본질에서 우리 사회가 치르는 거대한 ‘객관식의 날’과도 같았습니다.
하지만 2025년의 수능이 끝난 지금, 우리는 조금 다른 질문을 던져야 합니다. AI가 정답을 더 정확하게, 더 빠르게 찾아내는 시대에, 우리는 왜 여전히 객관식 중심의 시험을 미래 인재 평가 방식으로 유지하고 있을까?
수능일, AI는 이미 모든 정답을 알고 있다
어제 아침, 50만 명의 수험생이 시험장에 앉아있었지만, AI는 이미 모든 정답을 알고 있었습니다.
AI의 성능은 인간의 객관식 정답률을 넘어섰습니다. GPT-4o 계열 모델은 수능형 문제에서 93%에서 98%에 달하는 정답률을 기록했으며, 네이버 ‘하이퍼클로바X’ 역시 국어, 영어, 수학 등 객관식 문제에서 인간 상위 5% 수준의 성과를 보였습니다. 국내 대학 연구팀의 실험에서도 고난도 국어 지문조차 정답만 맞히는 데는 문제없음이라는 결론이 나왔습니다.
즉, 객관식 방식이 묻는 지식 검색 및 추론 능력은 이미 AI가 인간보다 뛰어난 영역입니다. 어제 50만 명이 치른 시험은, 본질적으로 AI에게 가장 최적화된 방식입니다.

연세대 AI 부정 사건이 경고하는 것
이 구조적 문제는 이미 현실이 되었습니다. 최근 연세대학교의 한 대규모 온라인 시험에서 수십 명 이상이 AI를 활용해 객관식 문제를 풀었다는 사실이 밝혀졌습니다. 약 600명 규모의 강의에서 다수 학생이 AI가 제시한 답안과 동일한 정답 패턴을 보인 것입니다.
이 사건이 던지는 메시지는 단순한 부정행위 문제가 아닙니다. 이는 객관식 정답형 시험이 AI 기술 앞에서 얼마나 취약한 구조인지를 드러낸 것입니다. 대학조차 이 변화를 감당하지 못하는 현실 속에서, AI 시대 수능이라는 거대한 평가가 과연 이 문제에서 자유로울 수 있을지 의문입니다.
AI 시대 수능, 무엇을 평가하는가
현행 객관식 시험이 평가하는 능력은 명확합니다. 이는 제한된 정보를 기반으로 가장 가능성 높은 선택지를 찾는 능력, 빠른 판단력, 그리고 출제자의 의도를 예측하는 패턴 제거 전략입니다. 하지만 AI 시대에 가장 중요한 능력은 정반대에 있습니다. 객관식 시험이 전혀 평가하지 못하는 능력들은 다음과 같습니다.
- 정답이 없는 문제에 대해 질문을 설계하는 능력
- AI가 제시한 답안을 비판적으로 검증하는 맥락 이해력
- 정보 간 연관성을 새롭게 조합하는 창의적 문제 해결 능력
- 자신의 논리를 설명하고 사고의 구조를 증명하는 능력
우리는 AI가 가장 잘하는 능력을 평가하고, AI가 못하는 능력은 무시하는 구조에 놓여 있습니다.

세계는 이미 AI 시대의 평가 방식으로 이동 중이다
정답 중심의 시험은 이미 국제 교육계에서 한계를 드러냈습니다. 세계는 AI 시대에 맞는 평가 방식으로 빠르게 이동하고 있습니다.
IB(International Baccalaureate)는 ‘정답 선택’ 평가가 거의 없으며, Extended Essay(소논문), TOK 에세이, 구술 프레젠테이션을 통해 학생의 사고 구조 자체를 평가합니다. 미국 대학들은 SAT 점수보다 AP Seminar나 AP Research(연구) 과목의 비중을 높이고 있으며, 싱가포르는 ‘One right answer(하나의 정답)’ 관행을 폐지하고 복수 관점 기반의 평가를 도입했습니다. 핀란드 역시 과목이 아닌 문제 중심의 융합 프로젝트(PBL)로 평가 방식을 전환했습니다.
세계는 이미 ‘정답 찾기’에서 ‘의미 찾기’로 이동했지만, 우리는 AI에게 가장 유리한 정답형 구조를 유지하고 있습니다.
AI가 대체하지 못하는 능력 Context Literacy
Contexis가 기술 변화와 사회 제도의 불일치를 지적하며 꾸준히 강조해 온 핵심은 AI가 대체할 수 없는 인간 고유의 영역입니다. ‘Context Literacy(맥락 이해력)’란, 정보와 정답이 넘치는 환경에서 무엇이 중요한지 선택하고, 왜 중요한지 설명하는 능력입니다.
AI는 데이터를 결합해 정답을 ‘생성’할 수 있습니다. 하지만 질문의 진짜 의미, 인간적 상황, 함축된 메시지, 사회적 맥락을 온전히 판단하고 ‘설계’하지는 못합니다. 한국의 수능은 바로 이 AI가 못하는 능력을 평가에서 완전히 배제하고 있습니다.
수능 제도가 가진 장점과 공정성의 가치를 인정하면서도, AI 시대에 걸맞은 평가 방식인지에 대한 논의는 피할 수 없습니다.

정답에서 질문으로 재설계가 필요하다
수능이라는 제도는 한국 사회의 중요한 축이며, 그 공정성과 표준화의 가치는 쉽게 바꿀 수 있는 문제가 아닙니다. 그러나 AI가 정답을 더 잘 찾고, 대학 평가는 AI로 흔들리고 있으며, 세계는 정답 중심 교육에서 벗어나고 있습니다. 미래 인재는 질문을 만들고 맥락을 해석하는 능력이 중요하다는 사실을 모두가 알고 있는데도, 우리는 여전히 정답 선택 능력을 미래 인재의 핵심 역량으로 평가하고 있습니다.
수능이 막 끝난 오늘, 우리는 이렇게 물어야 합니다. “정답을 찾는 현행 시험이, 과연 AI 시대 수능으로서 인재를 선별할 수 있는가?” 우리는 ‘정답 찾는 기계’를 흉내 내는 교육이 아니라, AI에게 질문하는 인간을 길러야 합니다.