[지디넷코리아]
“인공지능(AI) 경쟁 중심이 모델 성능에서 인프라와 데이터로 이동하고 있습니다. 우리는 수백만 개 AI 에이전트를 동시에 구동할 수 있는 컴퓨팅·데이터 환경을 구축해 기술 주도권을 확보할 것입니다.”
토마스 쿠리안 구글클라우드 최고경영자(CEO)는 21일 미국 라스베이거스에서 열리는 ‘구글클라우드 넥스트 2026’ 기자간담회에서 인프라·데이터 전략을 이같이 밝혔다.
그는 인프라 전략 핵심으로 ‘AI 하이퍼컴퓨터’를 꼽았다. 이는 텐서처리장치(TPU)를 비롯한 그래픽처리장치(GPU), 중앙처리장치(CPU), 스토리지, 네트워크를 통합 시스템으로 결합해 AI 워크로드를 최적화하는 목적형 아키텍처다. 쿠리안 CEO는 “이 인프라는 AI 연산 성능과 전력 효율을 동시에 끌어올릴 수 있다”고 강조했다.

AI 하이퍼컴퓨터는 여러 계층으로 이뤄졌다. 우선 컴퓨트 계층에서는 8세대 TPU가 대규모 연산을 담당한다. 학습용 ‘TPU 8t’는 인터칩 인터커넥트(ICI) 기반으로 작동한다. 이는 단일 슈퍼포드에서 최대 9600개 TPU와 2PB 메모리까지 확장됐다. 이전 대비 최대 3배 높은 성능을 제공하는 셈이다.
여기서 추론용 ‘TPU 8i’는 대규모 에이전트 운영에 초점을 맞췄다. 온칩 초고속 임시 메모리(SRAM) 확대와 전용 연산 가속 엔진을 탑재했다. 쿠리안 CEO는 “이 엔진으로 추론 성능을 달러당 최대 80% 개선했다”며 “수백만 개 에이전트를 비용 효율적으로 실행할 수 있도록 설계됐다”고 설명했다.
쿠리안 CEO는 TPU뿐 아니라 컴퓨트 선택지도 기존보다 넓혔다고 밝혔다. 엔비디아 GPU ‘호퍼’와 ‘블랙웰’에 이어 차세대 ‘베라루빈 NVL72’를 도입했으며, 자체 설계한 ‘엑시온 CPU’를 통해 x86 대비 두 배 수준의 가격 대비 성능을 제공한다는 설명이다.
그는 네트워크 중심 컴퓨팅도 확장됐다고 발표했다. 신규 C4N·M4N 인스턴스는 대규모 에이전트 간 통신과 5G 코어, 데이터베이스 워크로드에 최적화됐으며, 네트워크 대역폭은 기존 대비 최대 4배 향상됐다.
구글클라우드는 스토리지와 네트워크 성능도 개선했다. 매니지드 러스터(Managed Lustre)는 초당 10테라바이트(TB) 처리량을 지원하며, 래피드 스토리지(Rapid Storage)는 최대 15TB/초 성능으로 학습과 추론 속도를 끌어올린다. 스마트 스토리지(Smart Storage)를 통해 비정형 데이터에 의미적 맥락을 부여해 엔터프라이즈 지식 그래프 기반을 구축했다.
이날 구글클라우드는 대규모 AI 학습을 위한 네트워크와 소프트웨어(SW) 운영 구조를 포함한 차세대 AI 인프라 전략을 공개했다. 특히 대규모 에이전트 운영을 위한 네트워크와 실행 환경 혁신이 핵심으로 제시됐다.

대규모 AI 학습을 위한 ‘버고 네트워크’는 TPU 슈퍼포드와 GPU 시스템을 연결해 수십만 개 가속기를 하나의 초대형 슈퍼컴퓨터처럼 운용할 수 있도록 지원한다.
소프트웨어 계층에서는 AI 실행 환경이 개선됐다. 구글은 TPU에서 파이토치를 네이티브로 지원하고 GPU와 TPU 전반에서 가상거대언어모델(vLLM) 최적화를 제공한다. 또 구글 쿠버네티스 엔진은 초당 300개 에이전트 샌드박스를 배포하고 초기 실행 시간을 서브초 수준으로 줄여 대규모 추론 확장성을 확보했다.
쿠리안 CEO는 클라우드 운영 방식도 개선했다고 밝혔다. 구글은 모델 컨텍스트 프로토콜(MCP) 기반으로 클라우드 인프라를 에이전트가 직접 제어하는 구조를 도입했다. 이를 통해 시스템은 텔레메트리 데이터를 활용해 스스로 문제를 진단하고 근본 원인 분석과 설정 최적화를 자동 수행하는 자율 운영 체계로 전환된다.
그는 데이터 아키텍처도 바뀌었다고 밝혔다. ‘에이전틱 데이터 클라우드’는 기존 저장 중심 구조에서 벗어나 AI가 데이터를 실시간으로 이해하고 행동하는 ‘시스템 오브 액션’으로 진화하는 것이 핵심이다.
구글은 이런 인프라를 제미나이 모델과 생성형 AI 서비스에 적용하고 있다. 모델과 인프라를 동시에 설계해 확장성과 효율성을 올리고 연구 성과를 즉시 고객 환경에 반영하는 구조를 구축하는 것이 목표다.
쿠리안 CEO는 “앞으로 AI 경쟁은 모델 성능이 아니라 대규모 에이전트를 안정적으로 운영할 수 있는 인프라와 데이터 역량으로 기울 것”이라고 내다봤다.
