‘베프’처럼 나를 이해할 AI 반도체 세계 첫 개발…2027년 제품화

[지디넷코리아]

챗GPT가 내 속마음까지 알아주는 베프(Best Friend)라면?

유회준 KAIST 인공지능반도체대학원 전기및전자공학부 교수 연구팀이 17일 KAIST AI빌딩에서 기자간담회를 갖고, 사용자 특성에 맞춰 스스로 진화하는 개인 맞춤형 거대 언어 모델(LLM) 가속기 ‘소울메이트(SoulMate)’를 공개했다.

유회준 교수는 이날 “핵심은 챗GPT와 같은 거대 언어 모델(LLM)을 사용자가 스스로 학습시킬 수 있다는 것”이라며 “클라우드 없이도 사용자 대화 스타일과 선호도에 맞춰 반응하는 온디바이스 AI 기술을 개발했다”고 설명했다.

소울메이트를 시연하기에 앞서 설명하는 유회준 KAIST 전기및전자공학부 교수(오른쪽)와 홍성연 박사과정 연구원.(사진=지디넷코리아)

연구팀은 기억된 대화 내용을 바탕으로 맞춤형 답변을 생성하는 검색증강생성(RAG) 기술과 사용자 피드백을 즉각 반영해 학습하는 로우 랭크 미세조정(LoRA) 기술을 반도체 내부에 직접 구현했다.

홍성연 전기및전자공학부 박사과정 연구원(제1저자)은 “온디바이스 개인화 LLM 구현에는 거대한 장벽이 존재한다”며 “기존 고성능 LLM 시스템은 보통 100억 개 이상의 파라미터와 8GB 이상의 대용량 메모리를 요구한다. 단일 질의에도 1조 번 이상 연산이 필요하다”고 말했다.

문제는 이 같은 데이터 처리절차에 일반적인 모바일 하드웨어 처리 능력을 수십 배 이상 초과한다는 점이다. 대부분 서비스가 연산을 클라우드 서버에 전적으로 의존하게 되는데, 이에는 3가지 문제가 있다.

우선 첫 번째 단어가 생성되기까지 걸리는 시간(TTFT)이 400ms를 넘길 경우 사용자는 대화가 끊긴다고 느끼며 몰입도가 급격히 저하된다. 개인 신상과 관련한 보안 문제도 있다.

연구팀이 이를 한 방에 해결하기 위해 실시간 피드백과 학습, 즉각 반응이 가능한 혁신적인 인공지능 반도체 전용 시스템온칩(SoC)을 개발했다. 하드웨어 수준에 검색 증강 생성(RAG)과 온칩 미세 조정 기능을 통합한 개인화 LLM 시스템 온 칩인 ‘소울메이트’를 개발한 것.

연구팀은 삼성 28nm CMOS 공정을 통해 20.25mm² 면적의 칩으로 구현했다. 모바일 기기 내에서 LLM의 막대한 연산량과 메모리 병목 현상을 해결하기 위해 3가지 혁신적인 하드웨어 아키텍처를 도입했다.

3개 아키텍처는 ▲ 혼합 랭크 토큰 처리 아키텍처(MRNE) ▲ 유사도 기반 시퀀스 처리 아키텍처(SMU) ▲ 부울 프리미티브 MX 텐서 코어 (BPMX)다.

MRNE는 문장 내 토큰별 중요도를 실시간 판단, 연산 정밀도를 유동적으로 조절하는 기술이다. 이를 통해 연구팀은 사용자 인터페이스(UI) 상에서 첫 번째 토큰이 생성되기까지의 지연 시간(TTFT)을 기존 대비 75.0~82.5% 단축했다.

KAIST가 개발한 소울메이트칩. 빨강색 네모 속이 실제 칩으로, 크기는 가로, 세로 각각 4.5mm 정도다.(사진=지디넷코리아)

SMU는 ‘사용자 적응(UA)’ 과정에서 불필요한 데이터 이동과 연산을 최소화한다. 학습에 소모되는 에너지를 61.7~76.2% 절감했다.

BPMX를 통해 연구팀은 복잡한 부동소수점 연산을 효율적인 부울 논리 체계로 변환, 연산기 자체 피크 전력을 66.1% 절감하면서도 높은 연산 정밀도를 유지하는 데 성공했다.

홍성연 박사과정 연구원은 “32MB 규모의 데이터베이스를 통해 과거 대화 이력을 즉각적으로 참조(RAG)하고, 사용자의 교정이나 말투 선호도를 실시간 반영해 모델을 최적화한다”며 “특히 메타가 개발한 오픈소스 대규모언어모델 ‘LLaMA 3.2-1B’를 탑재한 시연에서, 클라우드 연결 없이도 63.1ms라는 매우 빠른 응답 속도를 나타냈다”고 설명했다.

유회준 교수는 “초저전력, 실시간 개인화 LLM 가속을 성공적으로 구현, 기술적 완성도를 입증했다”며 “기존 온디바이스 AI 가속 시스템 대비 지연 시간은 최대 82.5% 단축하고 사용자 학습 에너지는 76.2% 절감하는 세계 최고 수준의 효율을 달성했다”고 말했다.

유 교수는 또 “스마트폰, 웨어러블 기기, 개인형 AI 디바이스 등 차세대 플랫폼과 결합해 진정한 개인화 인공지능 서비스 시대를 열 것”이라며 “교원 창업기업 ‘온뉴로AI’를 통해 2027년께 제품화할 예정”이라고 덧붙였다.

이 연구 결과는 최근 미국 샌프란시스코에서 열린 국제고체회로설계학회(ISSCC)에서 ‘하이라이트 논문’으로 소개됐다.

연구는 과학기술정보통신부와 정보통신기획평가원(IITP) 정보통신방송혁신인재양성사업 지원을 받아 수행됐다.

KAIST가 개발한 소울메이트 검색증강생성 가속 원리 개념도. 토큰 행렬과 곱해지는 가중치 행렬의 랭크를 유연하게 조절한다.(그림=KAIST)

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다