[지디넷코리아]
오픈AI가 새 인공지능(AI) 모델 ‘GPT-5.5’를 공개하며 경쟁사 앤트로픽을 정면으로 겨냥했다. 상당수 벤치마크에서 앤트로픽의 클로드 오퍼스 4.7을 앞섰다고 내세웠지만 개발자 수요가 가장 높은 코딩 항목에선 역전당했다.
23일(현지시간) 오픈AI가 공개한 벤치마크를 보면 지식업무 수행 능력을 평가하는 GDPval에서 84.9%를 기록해 오퍼스 4.7(80.3%)을 웃돌았다. 터미널 환경 작업 능력인 터미널-벤치 2.0에선 82.7%로 오퍼스 4.7(69.4%)을 10%포인트 이상 앞섰고, 사이버보안 평가 항목 사이버짐에서도 81.8%로 오퍼스 4.7(73.1%)을 상회했다.
실제 소프트웨어 이슈 해결 능력을 평가하는 SWE-벤치 프로에선 58.6%에 그쳐 오퍼스 4.7(64.3%)에 5%포인트 이상 뒤졌다. 오픈AI는 결과표 각주에서 “해당 평가의 데이터 암기 징후가 보고됐다”고 명시하며 수치를 액면 그대로 받아들이기 어렵다는 입장을 내비쳤다.

성능 외에도 효율성을 강조했다. 오픈AI는 GPT-5.5가 전작인 GPT-5.4와 동일한 토큰당 지연시간을 유지하면서도 동일 작업을 더 적은 토큰으로 처리한다고 밝혔다. 컴퓨터 조작 능력을 평가하는 OS월드 검증(OSWorld Verified)에선 78.7%로 GPT-5.4(75.0%)를 웃돌았고, 다단계 과학 데이터 분석 평가인 유전학·정량생물학 평가(GeneBench)에서도 전작 대비 개선된 결과를 기록했다.
안전성 측면에선 사이버 관련 고위험 요청에 더 높은 거절 기준을 적용했다. 검증된 방어 목적 사용자에게 고급 사이버보안 기능 접근을 허용하는 ‘보안을 위한 신뢰 기반 접근 프로그램(TAC, Trusted Access for Cyber)’ 프로그램도 함께 운영한다.
응용 프로그램 인터페이스(API) 가격은 입력 토큰 100만 개당 5달러, 출력 100만 개당 30달러다. 고정밀 버전인 GPT-5.5 프로는 각각 30달러, 180달러로 책정됐다. 이날부터 챗GPT 플러스·프로·비즈니스·엔터프라이즈 사용자와 코덱스에 순차 적용되며, API 배포는 추후 예정이다.
오픈AI는 “모든 단계를 일일이 관리하는 대신 복잡하고 다단계적인 작업을 GPT-5.5에 맡길 수 있다”며 “계획 수립부터 도구 사용, 결과 점검까지 신뢰할 수 있도록 설계했다”고 말했다.
