‘월 20달러’ 챗GPT로 수학 난제 풀었다…’바이브 증명’의 충격적 실험

[지디넷코리아]

수학은 오랫동안 AI가 넘기 어려운 벽으로 여겨졌다. 논리적 완결성이 요구되는 수학 증명은 단 하나의 오류도 전체를 무효화할 수 있기 때문이다. 그런데 벨기에 브뤼셀자유대학교(Vrije Universiteit Brussel) 연구팀이 이 벽을 허물었다. 누구나 사용할 수 있는 일반 챗GPT(ChatGPT) 구독 계정만으로 최근 제기된 활성 연구 문제를 해결한 것이다. 이들이 제안한 방법론은 ‘바이브 증명(vibe-proving)’이라는 이름으로, AI와 인간이 협력하는 새로운 학술 연구의 방향을 제시하고 있다.

코딩에서 수학으로…’바이브’의 확장

프로그래머 세계에서는 이미 ‘바이브 코딩(vibe-coding)’이라는 개념이 자리 잡고 있다. 코드를 한 줄씩 직접 짜는 대신 “이런 기능을 만들어줘”라고 AI에게 자연어로 요청하면, AI가 알아서 프로그램을 생성해주는 방식이다. 브뤼셀자유대학교 데이터 분석 연구소(Data Analytics Lab)의 브레흐트 베르베켄(Brecht Verbeken) 박사 연구팀은 이 개념을 수학 증명에 그대로 적용했다.

연구팀이 도전한 문제는 란과 텡(Ran and Teng)이 2024년에 제시한 ‘추측 20번(Conjecture 20)’이다. 이는 특정 구조를 가진 4×4 행렬(matrix)에서 나타날 수 있는 고유값(eigenvalue)의 범위를 정확히 규정하는 문제다. 고유값이란 쉽게 말해, 수학적 변환이 일어날 때 방향은 바뀌지 않고 크기만 변하는 특별한 수치다. 사진을 확대하거나 축소할 때 이미지의 형태는 유지되는 것과 유사한 개념이다.

연구팀은 이 문제를 챗GPT-5.2(Thinking) 버전과 7개의 공유 가능한 대화 스레드와 4개 버전의 증명 초안을 거쳐 풀어냈다. 전문화된 수학 전용 시스템이 아닌, 개인 구독 계정으로 접근 가능한 일반 챗GPT를 사용했다는 점이 이번 연구의 핵심이다. 논문의 초록(Abstract)에서 연구팀은 “소비자 구독 수준의 대형 언어 모델(LLM)로 감사 가능한 연구 수준의 수학 작업이 가능함을 보여준다”고 강조했다.

AI는 전략가, 인간은 감독관…역할 분담의 발견

연구 과정에서 AI와 인간의 역할이 자연스럽게 나뉘었다. 챗GPT는 증명의 큰 그림, 즉 전체적인 접근 전략을 제시하는 데 뛰어난 역량을 발휘했다. 구체적으로는 1946년 드미트리예프와 딘킨(Dmitriev and Dynkin)이 개발한 삼각함수 방법(trigonometric method)이라는 고전적 수학 기법을 찾아내, 2024년의 미해결 문제에 맞게 변형하여 적용하는 전략을 제안했다. AI가 1946년 드미트리예프–딘킨의 삼각함수 방법을 적용하는 전략을 제시한 것이다.

반면 인간 연구자의 역할은 AI가 제안한 논리를 검증하고 오류를 수정하는 데 집중됐다. 논문의 토론(Discussion) 섹션에 따르면, AI가 생성한 초기 증명 초안에는 역삼각함수의 분기(branch) 및 사분면 처리 오류, 부호 조건 누락, 중간 계산 단계 생략 등 여러 결함이 있었다. 연구팀은 이를 발견하고 수정하는 과정을 반복하며 최종 증명을 완성했다.

이 과정은 연구팀이 ‘생성(generate), 심사(referee), 수리(repair)’라고 이름 붙인 순환 구조로 정리된다. AI가 아이디어와 증명 초안을 생성하면, 인간이 논리적 오류를 찾아 심사하고, 문제가 있으면 AI에게 다시 수정을 요청하는 반복 과정이다. 이 구조는 단순한 도구 사용을 넘어, AI와 인간이 각자의 강점을 살려 협력하는 새로운 연구 모델을 제시한다.

수학 올림피아드를 넘어 실전 연구로…AI 수학의 새 지평

최근 AI의 수학 능력은 눈부시게 발전하고 있다. 알파지오메트리(AlphaGeometry), 알파프루프(AlphaProof) 같은 특수 제작 시스템은 국제수학올림피아드(IMO) 문제에서 금메달 수준의 성과를 냈다. 그러나 이들은 대규모 컴퓨팅 자원과 전문적으로 설계된 시스템을 기반으로 한다는 한계가 있다.

이번 연구가 주목받는 이유는 바로 ‘접근성’이다. 란과 텡의 추측 20번은 교과서에 나오는 연습 문제가 아니라, 2024년에 현역 수학자들이 제시한 활성 연구 문제(active research problem)였다. 논문의 논의(Discussion) 섹션에서 연구팀은 “이 사례는 전문화된 시스템이 아닌 소비자 접근 가능한 모델로 감사 가능한 수학적 성과가 가능함을 보여준다”고 명시했다. (논문 p.5)

수학 증명은 AI 능력의 특별한 시험대다. 소프트웨어는 실행해보면 작동 여부를 즉시 확인할 수 있지만, 수학 증명은 모든 논리 단계가 완벽해야 하며 단 하나의 빈틈도 전체를 무효화한다. 이번 연구는 이런 엄격한 기준에서도 일반 AI 도구가 실질적인 학술 기여 가능성을 보여주는 초기 증거를 제시한다 점에서 의미가 깊다.

투명성이 핵심…모든 대화 기록을 공개한 이유

연구팀은 투명성을 연구의 핵심 원칙으로 삼았다. 챗GPT와 나눈 7개의 대화 세션 전체를 공유 링크로 공개하고, 4개 버전의 증명 초안도 논문 부록으로 모두 첨부했다. 이는 AI 연구에서 흔히 제기되는 재현 가능성(reproducibility) 문제를 정면으로 다룬 것이다. 다른 연구자들이 같은 방식으로 검증하고, 증명 과정의 오류 수정 과정까지 모두 추적할 수 있도록 한 것이다.

연구팀은 솔직하게 한계도 인정했다. 초기 탐색 단계의 대화는 체계적으로 보존하지 못했고, 이후에 챗GPT-5.2를 이용해 초기 프롬프트를 재구성했다. 또한 AI가 제안한 증명 전략은 근본적으로 새로운 방법이 아니라 기존 고전적 틀을 재적용한 것이었다고 밝혔다.

이 연구가 제시하는 더 큰 시사점은 학술 연구 도구의 민주화다. 대형 연구기관이나 막대한 컴퓨팅 자원 없이도, 개인 연구자가 AI를 활용해 의미 있는 학술 성과를 낼 수 있는 환경이 열렸다는 것이다. 의사가 복잡한 진단을 내릴 때, 변호사가 판례를 분석할 때, 엔지니어가 설계 문제를 해결할 때 AI와 대화하며 접근하는 방식이 표준이 되는 미래를 이번 연구는 예고하고 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 바이브 증명(vibe-proving)이란 무엇인가요?

A. 바이브 증명은 수학자가 AI와 자연어로 대화하며 수학 증명을 완성해 나가는 방식입니다. 수식을 직접 전개하는 대신 “이 문제를 어떻게 접근할까?”라고 AI에게 물으며 아이디어를 얻고, 그것을 검증하고 수정하는 과정을 반복합니다. 프로그래머가 AI에게 코드 작성을 맡기는 ‘바이브 코딩’에서 착안한 개념입니다.

Q. 일반 챗GPT로 정말 어려운 수학 문제를 풀 수 있나요?

A. 전문 지식이 있는 연구자라면 가능합니다. 이번 연구는 월 구독료만 내면 누구나 쓸 수 있는 챗GPT로 현역 수학자들의 미해결 문제를 풀었습니다. 단, AI는 전략과 방향을 제시할 뿐, 논리적 오류를 찾아내고 최종 검증하는 것은 여전히 인간 전문가의 몫입니다.

Q. 이 연구 방식을 수학 외 다른 분야에도 적용할 수 있나요?

A. 네, 논리적 검증이 중요한 모든 분야에 응용 가능합니다. 의료 진단, 법률 분석, 엔지니어링 설계 등에서 AI가 여러 가능성을 제시하고 전문가가 비판적으로 검증하는 ‘생성-심사-수리’ 구조를 활용할 수 있습니다. 핵심은 AI를 최종 의사결정자가 아닌 아이디어 제안자로 활용하는 것입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

(리포트명: Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking)

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다