[지디넷코리아]

브라질 인텔리 기술리더십연구소 연구팀이 생성형 AI 시대의 교육 방향을 제시하는 연구 리포트를 발표했다. 챗GPT 같은 대규모 언어모델(LLM)이 시험에서 인간을 넘어서기 시작하면서, 암기와 요약 위주의 기존 교육 방식이 한계에 부딪혔다는 분석이다. 연구팀은 현재 LLM 기술의 근본적인 약점을 분석하고, 인간만이 가진 강점을 키우는 새로운 교육 방식을 제안했다.
완벽한 문장 뒤 숨은 치명적 결함, 챗GPT는 토론을 못한다
대규모 언어모델(LLM)은 문법적으로 완벽한 글을 쓰지만, 내용을 들여다보면 심각한 문제가 있다. 감정 표현이 없고 단조로우며 독창성도 떨어진다. 특히 토론이나 논쟁이 필요한 상황에서 챗GPT는 훨씬 더 단순한 BERT 기반 AI 모델보다도 성능이 낮았다. 연구팀이 챗GPT와 긴 대화를 나눠본 결과, 이 모델은 같은 말을 빙빙 돌리거나, 앞뒤가 맞지 않는 말을 하거나, 질문을 회피하는 모습을 보였다. 아이러니하게도 이런 행동은 선생님들이 학생들에게 하지 말라고 가르치는 것들이다.
더 큰 문제는 챗GPT가 확신 없이 작동한다는 점이다. 대화 상대가 압박하거나 다른 방향으로 유도하면 쉽게 의견을 바꾼다. 자신이 틀렸는지도 제대로 인식하지 못한 채 계속 수정만 반복한다. 실제로 사이버 공격에서 사용되는 속임수 전략을 찾아내는 작업에서도 챗GPT는 오래된 단순 BERT 모델보다 낮은 점수를 받았다.
LLM 전반의 문제는 더 광범위하다. 수학 문제 풀기, 논리적 사고는 물론, 감정 표현, 유머, 윤리적 판단, 사실 확인, 편견 회피 등 여러 영역에서 약점을 드러냈다. 머신러닝(ML) 기술 자체의 한계도 있다. 해석 가능성 부족, 진정한 이해의 결여, 시간이 지나면서 성능이 떨어지는 ‘치명적 노화와 망각’ 현상 등이 그것이다. LLM은 자율성도 없고, 언어의 구조적 표현도 없으며, 통합된 세계관도 갖추지 못했다.
LLM이 언어를 이해하는 방식의 근본적 한계
현재 LLM이 가진 문제는 언어를 처리하는 방식 자체에서 비롯된다. 기존 자연어 처리 기술은 단어들을 숫자 공간에 배치하는 ‘Bag-of-Words’ 알고리즘을 사용하는데, 문장의 구조를 무시한다. 예를 들어 “개가 사람을 문다”와 “사람이 개를 문다”를 같은 것으로 인식하는 식이다.
이를 개선하기 위해 등장한 것이 BERT 같은 맥락적 토큰화 기술이다. 단어의 앞뒤 맥락을 함께 고려하지만, 처리해야 할 정보량이 폭발적으로 늘어나 계산이 매우 복잡해진다. 이것이 바로 현대 LLM의 엄청난 계산 복잡성과 규모가 커진 핵심 이유다.
또한 현재 LLM은 ‘마스크 언어모델(MLM)’ 방식으로 학습한다. 문장에서 일부 단어를 가리고 그 자리에 들어갈 가장 그럴듯한 단어를 확률로 예측하는 것이다. 이 방식은 문장의 구조를 명확하게 이해하는 게 아니라 통계적으로 추측하는 것에 가깝다. 긴 문장의 맥락을 처리하기 위해 ‘어텐션 메커니즘’과 ‘트랜스포머’ 기술이 개발됐지만, 이 역시 본질적으로 확률적 접근법이다.
언어학자 촘스키가 강조했듯이, 사람의 언어는 순서대로 나열된 게 아니라 복잡한 계층 구조를 가지고 있다. “직관적으로, 나는 새들이 헤엄친다고 생각한다”라는 문장에서 ‘직관적으로’는 ‘헤엄친다’가 아니라 전체 문장과 연결된다. 하지만 LLM은 이런 복잡한 관계를 평면적인 단어 나열로 바꾸면서 중요한 의미를 놓친다. 연구팀은 LLM의 현재 한계가 인간 언어의 복잡한 구조를 제대로 표현하지 못하는 데서 비롯된다고 지적했다. 이 문제를 해결하려면 언어학 이론에 기반한 새로운 모델링 방식이 필요하다는 설명이다.
피아제와 비고츠키가 제시한 해법, 학생이 스스로 지식을 만든다
전통적인 교육은 선생님이 가진 지식을 학생에게 일방적으로 전달하는 과정으로 여겨졌다. 하지만 심리학자 피아제와 비고츠키가 발전시킨 구성주의 교육 이론은 다르다. 학습이란 학생이 스스로 세상에 대한 지식을 만들어가는 능동적인 과정이라는 것이다. 선생님의 역할은 이 과정을 돕고 안내하는 것이며, 진짜 힘은 학생 본인의 의지와 다른 사람과의 상호작용에서 나온다.
비고츠키는 ‘근접발달영역(ZPD)’이라는 개념을 제시했다. 학생이 혼자 할 수 있는 것과 도움을 받으면 할 수 있는 것 사이의 영역에서 진짜 배움이 일어난다는 뜻이다. 이런 교육 방식은 선생님에게 훨씬 높은 수준을 요구한다. 단순히 교과서 내용을 전달하고 암기를 확인하는 것을 넘어서, 각 학생의 특성에 맞춰 개별적으로 상호작용해야 한다.
연구팀은 러시아 모스크바 방법론학파의 ‘생각-행동(Thought-Action)’ 이론을 소개했다. 이는 생각-성찰, 생각-소통, 생각-행동이라는 세 층이 서로 연결돼 작동해야 한다는 개념이다. 흥미롭게도 연구팀은 이 중 생각-소통 층만 따로 떨어지면 “행동도 없고 의미도 없는 말, 순수한 단어의 유희로 전락한다”고 설명했는데, LLM 연구자나 일반 사용자라면 이 묘사가 현재 LLM의 문제점을 정확히 표현한다는 것을 알 수 있다.
학생 감시 강화 아닌 평가 방식 자체를 바꿔야
코로나19 때 대학들이 도입한 디지털 감시 시스템—출석 추적, 표절 탐지, 침입적 온라인 감독, 줌 녹화—은 공식적으로는 학생을 돌보는 행위로 제시됐지만, 실제로는 불신 환경을 조성하고 심리적 피해를 줬다는 연구 결과가 있다. 반대로 감독 없는 폐쇄형 시험은 점수 부풀리기를 초래했다.
연구팀은 침입적 감시를 강화하는 대신 평가 전략 자체를 바꾸자고 제안했다. 예를 들어 오픈북 시험은 학생들이 외부 자료를 자유롭게 참고할 수 있게 하는데, 특히 고급 과목에서 교육적 이점이 크다는 광범위한 연구가 있다. 더 나아가 전통적인 시험을 완전히 대체해 논문 리뷰나 연구 포트폴리오 같은 연구 지향적 평가 방식을 도입할 수도 있다.
한 걸음 더 나아간 방법도 있다. ‘시험 디자인하기’ 접근법으로, 학생과 교수가 협력해 각 사례에 가장 적합한 지식 구축 및 평가 방식을 결정하는 것이다. 일부 학생은 암기에, 다른 학생은 분석적 추론이나 종합에 뛰어나다. 현명한 교육자라면 객관식 문제는 틀렸지만 깊은 개념적 이해를 보이는 학생에게 높은 점수를 주거나, 반대로 형식적 시험에서는 잘했지만 진정한 이해가 부족한 학생을 간파할 수 있다.
이러한 유연성은 높은 수준의 신뢰와 교육자의 상당한 자율성을 요구하며, 주관성, 공정성, 학생-교사 관계의 사회적 역학에 대한 질문을 제기한다. 학생이 LLM으로 생성한 에세이로 ‘부정행위’를 하거나 교사가 불공정하게 행동하는 것은, 비고츠키가 말한 근접발달영역에 도달하지 못한 것일 뿐이다. 누구의 실패인가? 아마 둘 다일 것이다. 하지만 더 중요한 것은 피아제-비고츠키 패러다임에서 실패는 붕괴가 아니라 성장의 예상된 단계라는 점이다. 부정행위, 자유, 신뢰는 본질적으로 사회적 구성물이며, 따라서 처벌적 해결책이 아니라 사회적 해결책이 필요하다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 챗GPT 같은 대규모 언어모델(LLM)의 가장 큰 문제는 뭔가요?
A. LLM은 확률로 언어를 처리하기 때문에 같은 말을 반복하거나 앞뒤가 안 맞는 말을 하고, 사실을 왜곡하는 문제가 있습니다. 특히 확신 없이 작동해서 상대방의 압박에 쉽게 의견을 바꾸고, 자신의 실수를 알아채지 못하는 근본적 한계가 있습니다. 챗GPT는 토론이나 논쟁 상황에서 더 단순한 AI 모델보다도 성능이 낮습니다.
Q2. AI 시대에 교육은 어떻게 바뀌어야 하나요?
A. 암기와 표준화된 시험 중심에서 벗어나 스스로 생각하고, 창의적으로 문제를 해결하는 능력을 키우는 방향으로 바뀌어야 합니다. 학생이 능동적으로 지식을 만들어가고, 선생님은 이를 돕고 안내하는 구성주의 교육 방식이 필요합니다.
Q3. 학생들이 LLM을 사용하는 걸 막아야 하나요?
A. 오히려 AI 도구를 활용하되, 자료 참고가 가능한 오픈북 시험이나 연구 결과물 평가 같은 새로운 방식을 도입해야 합니다. 중요한 것은 감시를 강화하는 게 아니라 학생과 선생님 사이에 신뢰를 쌓고 배움 과정 자체를 다시 설계하는 것입니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)
