KICE "AI채점, 교사보다 형식적 요소에 높은 점수"

국어·수학 등 5개 과목 대상 검증 인공지능(AI)이 서·논술형 답안을 채점할 수 있지만, 교사와 보는 기준이 근본적으로 다른 것으로 나타났다. AI는 문장 길이나 어미의 다양성 같은 형식적 요소에 높은 점수를 주는 반면, 교사는 개념 이해도와 논리적 근거의 타당성을 더 중요하게 본다. 이 관점 차이가 AI 자동채점이 넘어야 할 본질적 과제로 지목됐다.
한국교육과정평가원(KICE)은 국어·수학·사회·과학·기술 5개 교과를 대상으로 AI 자동채점 모델을 개발·검증한 결과를 19일 발표했다. 실제 중·고등학생 답안 1만3652건을 학습 데이터로 활용했으며, AI 예측 점수와 교사 채점 간 상관계수는 수학 서술형 최대 0.77, 사회 논술형 약 0.66으로 나타났다. 여러 모델 판단을 합산하는 앙상블 방식이 전 교과에서 가장 안정적인 성능을 보였고, 이번에 처음 자동채점 대상에 포함된 기술 교과에서는 친환경 에너지·스마트팜 등 실생활 문항으로 578건을 수집했다.
다만 AI 채점은 점수 산출 근거를 학생에게 납득시켜야 하는 설명 가능성, 답안이라는 민감 개인정보 보호 문제가 현장 도입 전 선결 과제로 남아 있다.