염익준 아크릴 CTO “GPU 관리기술 독보적…한국판 쿠다 생태계 구축”

[지디넷코리아]

염익준 아크릴 CTO는 성균관대학교(성대) 소프트웨어학과 교수이기도 하다. 20년 넘게 대학에서 후학을 양성해 온 그는 소프트웨어(SW)와 네트워크 전문가다. 2021년부터 AI 전문기업 아크릴의 CTO도 맡고 있다. 아크릴은 AI 인프라·플랫폼 전문 기업이다. 기업과 기관이 AI를 효율적으로 개발·운영·확장할 수 있게 도와준다. 2년 연속(2024년, 2025년) 포브스코리아가 선정한 ‘대한민국 AI 50대 기업’에 뽑힐만큼 시장성과 기술력을 인정받았다. 작년 투자 시장이 부진했음에도 12월 코스닥에 당당히 상장했다.

1일 염 교수는 아크릴 CTO 겸직 배경에 대해 “첫 교수 임용(2002년) 후 20년 넘게 강단에서 수많은 국책 과제를 수행, 논문과 특허를 발표해 왔다. 하지만 연구실에서 탄생한 기술은 논문 속에만 머물러 있고, 실제 우리 삶을 바꾸는 데까지 이어지지 못했다. 늘 이에 대한 아쉬움과 갈증이 있었다. 아크릴 합류는 바로 그 ‘연결’에 대한 열망 때문이었다. 학교에서 쌓은 이론적 깊이를 실제 서비스와 제품으로 구현해낼 수 있다는 점에서 기쁘고 흥분된다”고 말했다.

아크릴 주력 제품(솔루션)은 ‘조나단(Jonathan)’과 ‘나디아(NADIA)’다. ‘조나단’은 AI 개발·배포·운영을 자동화한 통합 AI 플랫폼이다. 데이터 수집부터 모델 학습, 배포까지 전 과정을 지원, 기업이 AI를 쉽게 도입할 수 있게 해준다. 특히 ‘조나단’에 탑재한 GPU 운영 최적화 기술은 1개당 수천만원 하는 GPU 자원 활용률을 효율 및 극대화해준다.

‘나디아’는 의료 헬스케어 특화 AI 솔루션이다. 의료 데이터를 구조화 및 표준화했고 다국어를 지원한다. 병원정보시스템(Hospital Information system, HIS) 기반 운영부터 SaMD(Software as a Medical Device, 의료기기 분류 소프트웨어)급 진단·예측까지 하나의 흐름으로 연결하는 글로벌 헬스케어 특화 AX 플랫폼이다.

염 CTO는 교수와 CTO와 교수 ‘투잡’이 힘들지 않냐는 질문에 “두 역할의 시너지 효과가 명확하다”는 말로 대답을 대신했다. 그에 따르면 두 역할을 함으로써 얻는 플러스 효과는 첫째, ‘인재 연결’이다. 실제, 염 CTO 연구실 출신 고의열 박사(이사)와 이수기 박사(본부장)를 필두로, 다수의 유능한 염 교수 석, 박사 제자들이 현재 아크릴 연구소 핵심 인력으로 활약하고 있다. 염 CTO는 “내가 학교에서 직접 가르치며 손발을 맞춘 제자들이 이제는 든든한 동료가 돼 학교 밖에서도 같은 목표를 향해 뛰고 있다는 사실이 무엇보다 큰 자산”이라고 반색했다.

또 다른 매력은 ‘경험의 선순환’이다. 염 CTO는 “아크릴이라는 산업 현장에서 겪는 생생한 문제 해결 경험과 최신 트렌드는 다시 학교로 돌아가 학생들을 가르치고 연구를 지도하는 데 귀중한 밑거름이 된다. 이론이 현장을 이끌고, 현장의 경험이 다시 교육을 풍성하게 만드는 구조가 완성된 셈”이라고 들려줬다.

염 CTO는 연세대(전자공학과)를 졸업했다. 석사와 박사 학위는 미국 텍사스 A&M 대학교에서 컴퓨터 공학 전공으로 받았다. 박사 학위 취득후 KAIST에서 전산학과 교수(2002~2008)로 처음 교수 생활을 시작, 이 곳에서 7년간 있다 2008년 현재의 성대로 자리를 옮겼다.

아크릴 최고경영자(CEO)이자 설립자인 박외진 대표와는 ‘특별한 인연’이 있다. 고교(개포고) 동문이다. 두 사람 모두 고3때 반장을 맡을만큼 공부를 잘하고 리더십도 있었다.

고교 졸업후 각자의 길(박 대표는 KAIST 입학, 염 교수는 연세대 입학)을 걷다 2002년 KAIST에서 다시 만났다. 당시 염 교수는 막 부임한 전산학과 교수였고, 박 대표는 전산학과 박사과정 학생이자 스타트업을 이끄는 창업가였다.

염 CTO는 “우린 배경이 서로 달랐다. 나는 ‘네트워크’를 전공한 교수였고, 박 대표는 ‘소프트웨어 공학’을 전공한 사업가였다. 전공 분야도, 사회적 역할도 달랐다. 그러기에 더 완벽한 파트너가 될 수 있었다”면서 “이 때문에 서로의 부족한 점을 채워주는 상호 보완적인 관계가 자연스럽게 형성됐다. 이런 신뢰를 바탕으로 2011년 아크릴이 창업했을때 연구개발에 더 적극 참여했고, 기술 비전을 공유하던 중 2021년 자연스레 CTO라는 중책까지 맡게 됐다. 오랜 친구이자 동료로서 쌓아온 시간이 지금의 탄탄한 팀워크를 만든 셈”이라고 들려줬다.

아래는 염 CTO와 인터뷰 일문일답. 그는 이번 인터뷰에서 “대한민국 시스템 소프트웨어(SW) 기술이 글로벌 인공지능(AI) 인프라의 표준이 되는 것, 이것이 학자이자 CTO로서 내가 꿈꾸는 최종 목표”라고 강조했다.

염익진 아크릴 CTO 겸 성균관대 SW학과 교수가 아크릴 CI를 배경으로 포즈를 취했다.

“아크릴은 최근 우후죽순 생겨난 일반 AI 스타트업과 결이 다르다. 2011년 창업 당시에는 ‘인공지능’이 지금처럼 주목받던 시절이 아니었다. 당시 우리 핵심 아이템은 ‘감성 컴퓨팅(Affective Computing)’이었다. 텍스트, 음성, 표정 등 다양한 멀티모달(Multi-modal) 데이터를 융합해 사람의 감정을 이해하는 것이 목표였다. 이를 가장 잘 구현하기 위해 딥러닝과 인공지능 기술을 적극 도입했다. AI는 목적이 아닌 문제 해결을 위한 필수 도구였던 셈이다.

내 전공인 네트워크와 시스템 기술이 필수인 이유도 여기 있다. 감성 인식을 위해 대용량의 영상과 음성 데이터를 처리하다 보니, 데이터를 나르는 ‘네트워크’가 느리면 아무리 비싼 GPU를 써도 데이터가 도착할 때까지 GPU가 멈추는(Idle) 비효율이 발생했다.

나는 이 병목 현상을 해결하기 위해 시스템 최적화에 집중했고, 결과적으로 ‘AI 성능은 모델 뿐 아니라 이를 뒷받침하는 인프라(system & Network)에 달려있다’는 것을 체감했다. 최근 글로벌 산업계에도 모델 경쟁을 넘어 ‘AI 인프라’의 중요성을 재조명하고 있다. 아크릴은 태생부터 이러한 시스템적 사고를 바탕으로 성장해 온 기업이라 할 수 있다.”

“역설적이지만, ‘가장 빠르게 변하는 시장에서 살아남기 위해’ 깊이 있는 연구를 한다. AI 기술은 어제 나온 신기술이 오늘은 구식이 될 정도로 발전 속도가 빠르다. 단순히 남들이 만든 기술을 가져와 제품화하는 데만 급급하다 보면, 제품을 출시하기도 전에 이미 도태되는 악순환에 빠질 수밖에 없다. 이 악순환의 고리를 끊는 유일한 방법은 ‘남보다 앞선 원천 기술’을 확보하는 것이다.

우리가 매년 권위 있는 학회에 논문을 발표하는 것은 학술 성과를 넘어, 우리가 확보한 기술적 우위를 글로벌 무대에서 객관적으로 검증받고 인정받기 위한 과정이다. 또 우리는 이 기술을 독점하기보다 시장에 공개함으로써 생태계의 파이를 키우는 것을 지향한다. 우리가 자체 개발한 ‘조나단(Jonathan)’ 플랫폼을 ‘탱고2(Tango 2)’라는 이름으로 오픈소스로 공개한 것이 대표적인 사례다.

다행히, 이러한 R&D 철학이 실제 성과로 이어지고 있다. LLM이 처음 등장했을 때, 모두가 모델 튜닝에만 몰두했지만, 우리는 그 이후를 내다보고 ‘자원 효율적인 추론을 위한 인프라 기술’ 연구에 집중했다. 현재 시장은 정확히 우리가 준비한 ‘비용 절감과 효율성’ 방향으로 움직이고 있다. 남들이 보지 못한 곳을 먼저 연구하고 준비한 덕분에 시장을 선도할 수 있었다고 생각한다. 솔직히 말하면, 개인적인 ‘사심’도 조금 섞여 있다(웃음). 기업의 CTO이기도 하지만 20년 넘게 연구에 주력해 온 학자다. 그러다보니 세상에 의미 있는 연구 결과를 내놓아 인정받고 싶은 ‘연구자로서의 욕심’은 어쩔 수가 없더라(웃음).”

염익진 아클릴 CTO가 회사의 기술경쟁력을 설명하고 있다.

“GPUBase는 내 전공인 네트워크, 시스템 기술과 아크릴의 AI 기술 역량을 총망라해 탄생시킨 아크릴의 대표 플래그십 제품이다. 한마디로 ‘AI 인프라의 성능을 극대화해 주는 GPU 관리 및 운영 플랫폼’이라 정의할 수 있다. AI 현장에는 심각한 비효율이 존재한다. 1개당 수천만원 하는 비싼 GPU를 구매해 놓고도 실제 사용률(Utilization)이 50~60%에 불과한 경우가 많다. 데이터가 제때 도착하지 않거나, 스케줄링이 꼬여서 GPU가 놀고 있는 시간이 많기 때문이다. ‘GPUBase’는 이 ‘숨겨진 비효율’을 찾아내 성능으로 바꿔주는 역할을 한다.

핵심 기술은 크게 ‘컴퓨팅 최적화’와 ‘통신 최적화’ 두 축이다. 컴퓨팅 측면에서는 엔비디아의 MPS(Multi-Process Service)나 MIG(Multi-Instance GPU) 기술을 고도화해 결합했다. 이를 통해 하나의 고성능 GPU를 여러 개의 논리적 단위로 정교하게 쪼개 쓰거나, 작업 부하에 따라 동적으로 할당함으로써 자원 낭비를 원천 차단한다.

이보다 더 강조하고 싶은 것은, 내 주력 분야인 네트워크(통신) 기술이다. 수백 대의 GPU가 동시에 데이터를 주고받을 때 발생하는 병목 현상을 해결하기 위해 ‘다중 경로 전송(Multipath Transport)’ 기술과 ‘트래픽 차등화(Traffic Differentiation)’ 기술을 적용했다. 이는 데이터 고속도로를 여러 개 뚫고, 중요한 데이터에 우선순위를 부여, 전송 지연을 최소화한 기술이다. 덕분에 GPU가 멈추지 않고 끊임없이 연산을 수행할 수 있다.

이러한 기술적 안정성은 대외적으로도 입증받았다. 최근 ‘엔비디아 커넥트(NVIDIA Connect) 프로그램’ 멤버로 합류했다. 이는 우리 솔루션이 엔비디아 생태계 안에서 기술적 호환성을 공식적으로 검증받았다는 의미다. 고객 입장에서는 안심하고 도입할 수 있는 근거가 하나 더 생긴 셈이다.

결과적으로, 사용자는 같은 비용으로 더 많은 AI 모델을 학습 및 추론할 수 있어 TCO(총소유비용)를 크게 절감할 수 있다. 또 클라우드 운영자(CSP)는 단순 인프라 임대를 넘어 고객에게 고성능 AI 환경을 보장하는 프리미엄 서비스를 제공할 수 있다.”

“가장 결정적인 차별점은 바로 ‘네트워크 기술 독립성과 최적화’에 있다. 현재 시중의 대부분 경쟁 제품들은 네트워크 성능을 전적으로 엔비디아 기술(NVLink, InfiniBand 등)에 의존하고 있다. ‘엔비디아 장비를 썼으니 빠르겠지’라고 막연히 믿는 것이다. 하지만 이런 수동적인 접근에는 두 가지 치명적인 한계가 있다. 첫째, ‘기술 종속(Lock-in)’ 문제다. 특정 벤더 기술에만 의존하면, 향후 인프라 확장이나 변경 시 유연성이 크게 떨어지고 비용 통제가 불가능해진다.

둘째, 더 중요한 것은 ‘추가적인 효율화 부재’다. 엔비디아는 아주 빠른 속도의 ‘도로(네트워크 장비)’를 깔아줄 뿐, 그 위에서 차들(데이터)이 어떻게 다녀야 막히는 않는 지에 대한 ‘교통 정리(토폴로지 최적화)’까지 완벽하게 해주지 않는다. 같은 장비를 써도 데이터센터 구조나 연결 방식(Topology)에 따라 성능 차이가 천차만별인데, 경쟁사들은 이를 간과하고 있다. GPUBase는 바로 이 지점을 파고들었다. 우리는 하드웨어 성능에만 기대지 않고, 주어진 토폴로지 환경을 분석해 데이터 흐름을 소프트웨어적으로 정교하게 제어한다. 즉, 남들이 ‘빠른 도로’만 믿고 달릴 때, 우리는 ‘최적의 내비게이션’까지 제공, 하드웨어가 가진 잠재력을 100% 이상 끌어낸다. 이것이 네트워크 전문가로서 내가 자부하는 아크릴 GPUBase만의 독보적인 기술력이다.”

“인피니밴드는 전용 고성능 네트워크고, RoCE(RDMA over Converged Ethernet)는

인피니밴드 경쟁인 이더넷 기반 RDMA 기술이다. 많은 사람들이 인피니밴드에서 RoCE로 넘어가는 이유를 단순히 ‘비용 절감’ 때문이라고 생각하지만, 네트워크 전문가 입장에서 볼 때 본질적인 문제는 바로 ‘기술 종속(Vendor Lock-in)’이다.

인피니밴드는 특정 벤더가 주도하는 폐쇄적인 생태계에 가깝다. 하지만 지금 AI 시장은 엔비디아 GPU뿐만 아니라 다양한 NPU와 가속기들이 등장하며 하드웨어 춘추전국시대로 가고 있다. 특정 회사 네트워크 기술에 종속돼 있다면, 이런 다양한 차세대 가속기들을 자유롭게 도입하고 활용하는 데 큰 제약이 따를 수밖에 없다.

최근 리눅스 재단을 중심으로 AMD, 인텔, 메타 등 글로벌 빅테크 기업들이 ‘울트라 이더넷 컨소시엄(UEC, Ultra Ethernet Consortium)’을 결성한 것도 바로 이러한 이유 때문이다. 폐쇄적인 인피니밴드 대신, 개방형 표준인 이더넷을 통해 고성능 AI 네트워크 생태계를 만들겠다는 거대한 흐름이 시작된 것이다.

아크릴은 이러한 변화를 이미 수년 전부터 예측하고 준비해 왔다. 실제, 나는 지난 2021년, 세계 최고 권위 네트워크 학회인 ‘IEEE INFOCOM’에 ‘GPU-Ether: GPU-native Packet I/O for GPU applications on Commodity Ethernet’이라는 논문을 발표했다.

이 논문은 그동안 인피니밴드 전유물로만 여겨지던 ‘GPU Direct RDMA(GPU 간 직접 데이터 전송)’ 기술을 일반적인 이더넷 환경에서도 구현할 수 있음을 학술적으로, 그리고 기술적으로 입증한 선행 연구였다. 남들이 인피니밴드에 안주할 때, 우리는 이미 이더넷 위에서 GPU 성능을 극대화할 수 있는 원천 기술을 확보하고 있었던 셈이다.

결론적으로, 아크릴은 고객이 인피니밴드를 쓰든, RoCE를 쓰든 상관없이 그 하드웨어 위에서 최적의 성능을 낼 수 있는 ‘준비된 기술력’을 갖추고 있다.”

염익진 아크릴 CTO.  대학에서 20년 넘게 후학을 양성하고 있다.

“물론이다. 우리는 엔비디아 GPU 품귀 현상이 오기 전부터, 포스트 엔비디아 시대를 대비해 국내 주요 NPU 기업들과 협력하며 기술적 준비를 꾸준히 해왔다. 우선 소프트웨어 호환성 측면에서 이미 다양한 국책 과제를 통해 검증을 마쳤다.

리벨리온이 주관하는 ‘PIM-NPU 기반 거대인공신경망 처리 플랫폼’ 과제와, 딥엑스·모빌린트와 함께하는 ‘상용 엣지 AI SoC 반도체 SW 플랫폼’ 개발에 참여해 2027년까지 차세대 반도체를 위한 시스템 소프트웨어를 함께 만들고 있다.

또 아크릴이 주관해 ‘데이터센터와 엣지 NPU 간의 연합 학습 및 추론 프레임워크’를 개발하는 과제도 수행하며 NPU 지원 역량을 탄탄히 다져왔다. 여기에 더해, 아크릴이 가진 강력한 무기인 ‘네트워크 기술’ 또한 큰 강점이다.

경쟁 제품들이 엔비디아 전용 네트워크 기술에 의존하고 있어 확장이 어려운 반면, 우리 네트워크 최적화 기술은 엔비디아 하드웨어에 종속되지 않는 독자적인 기술이다. 그렇기 때문에 향후 어떤 종류의 AI 반도체가 시장에 나오더라도, 하드웨어 특성에 구애받지 않고 최적의 성능을 지원할 수 있다.”

“피지컬 AI 시대 핵심은 AI가 단순히 보고(Vision) 말하는(Language) 것을 넘어, 물리적인 행동(Action)까지 수행하는 VLA(Vision-Language-Action) 모델에 있다. 아크릴은 우리 핵심 플랫폼인 ‘조나단(Jonathan)’을 통해 이 흐름을 선도하고자 한다. 현재 우리는 조나단이 다양한 VLA 모델을 효과적으로 지원하고 탑재할 수 있도록 고도화 작업을 진행 중이다. 하지만 피지컬 AI에서 ‘지능(Brain)’만큼 중요한 것이 바로 네트워크다.

로봇이 현장에서 실시간으로 움직이려면 데이터 지연이 0.1초라도 발생해서는 안 되기 때문이다. 여기서 아크릴만의 비기(秘機)인 ‘GPUBase’가 빛을 발한다. 우리가 보유한 ‘트래픽 차등화 기술’은 수많은 데이터 중에서 로봇 제어에 필요한 핵심 신호를 골라내 최우선으로 전송해 준다. 덕분에 대규모 피지컬 AI를 호스팅하더라도 끊김 없는 실시간 제어(Real-time Control)가 가능하다.

이런 기술 개발을 위해 현재 피지컬 AI 분야 대가인 성균관대학교 우홍욱 교수 연구팀과 긴밀히 협력하고 있다. 학교의 원천 기술과 아크릴의 인프라 기술을 결합, 다가올 로봇 시대의 표준 운영체제(OS)를 만드는 것이 목표다.”

“냉정하게 현실을 볼 필요가 있다. 대한민국이 AI 3대 강국(G3)이라고 불리지만, 1, 2위 국가와의 격차는 여전히 크다. 특히 LLM처럼 압도적인 데이터 양이 승패를 가르는 분야에서는 우리가 모든 전선에서 경쟁하기가 현실적으로 어렵다. 따라서 지금 우리에게 필요한 전략은 ‘선택과 집중’이다. 나는 그 승부처가 바로 ‘시스템 소프트웨어’라고 확신한다. 엔비디아가 지금의 AI 제국을 건설할 수 있었던 것은 단순히 하드웨어 성능 때문이 아니라, ‘쿠다(CUDA)’라는 강력한 소프트웨어 생태계가 있었기 때문이다.

우리나라도 경쟁력 있는 AI 반도체(NPU)들이 나오고 있지만, 이것이 글로벌 시장에서 성공하려면 하드웨어를 완벽하게 제어하고 뒷받침할 ‘시스템 소프트웨어’ 역량이 필수다. 내 목표는 명확하다. 아크릴의 기술로 ‘한국판 쿠다(CUDA)’ 생태계를 구축하는 것이다. 국산 AI 반도체가 세계 어디서든 막힘없이 사용할 수 있게 탄탄한 소프트웨어 토양을 만들고, 학교에서는 이 소프트웨어와 하드웨어를 모두 꿰뚫어 보는 융합형 인재를 길러내는 것, 이 두 가지가 나의 궁극적 목표다.”


염익준 아크릴 CTO 겸 성대 교수는…

학력

-Texas A&M University 컴퓨터 공학 박사 (2001)

-Texas A&M University 컴퓨터 공학 석사 (1998)

-연세대학교 전자공학 학사 (1995)

경력

-아크릴 CTO (2021~현재)

-성균관대학교 소프트웨어학과 교수(2008~현재)

-KAIST 전산학과 교수(2002~2008)

관련 주요 논문

-Perf: Preemption-enabled RDMA FRAMEwork, USENIX ATC, 2024

-I-NVMe: Isolated NVMe over TCP for a containerized environment, IEEE Infocom, 2023

-GPU-Ether: GPU-native packet I/O for GPU applications on commodity Ethernet, IEEE Infocom, 2021

-Efficient user-level multi-path utilization in RDMA network, IEEE Access, 2021

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다