[지디넷코리아]
인공지능(AI)은 보이지 않게 심겨진 신호 하나로 위험한 답을 내놓기도 한다. 그런데 국내 연구진이 이의 해결법을 제안, 국제 대회서 2위를 차지했다.
UNIST는 박새롬 산업공학과·인공지능대학원 교수와 윤성환 인공지능대학원·전기전자공학과 교수 공동 연구팀이 지난 23일부터 25일까지 독일 뮌헨에서 열린 국제전기전자공학회(IEEE) 보안·신뢰 기계학습 학회(SaTML)의 ‘사후학습 대규모 언어모델 백도어 방어 챌린지(안티-BAD)’에서 2위를 차지했다.

이 대회 우승은 중국과학원(CAS)에 돌아갔다.
UNIST 연구팀은 생성, 분류, 다국어 등 서로 다른 과제에 두루 적용할 수 있는 범용 공격 완화 기법을 제시했다. 숨겨진 조작을 걷어낼 수 있다.
이 행사에는 박새롬, 윤성환 교수를 비롯해 윤지은(산업공학과 석박사통합과정), 권기완(산업공학과 석사과정), 하승범(인공지능대학원 석박사통합과정) 연구원이 참여했다.
백도어 공격은 인공지능 모델이 특정 결과를 내놓도록 몰래 심는 조작 기법이다. 평소에는 정상 작동하지만, 특정 단어나 문장 같은 ‘트리거’가 입력되면 의도된 반응을 나타낸다.
대규모 언어모델(LLM)처럼 복잡한 모델도 소수 공격 데이터와 짧은 미세조정만으로 오염될 수 있다.
이번 안티-배드(Anti-BAD) 챌린지는 서로 다른 목적에 맞춰 미세조정된 LLM에 숨어 있는 트리거 영향을 최소화하고, 공격받지 않은 것과 같은 안전한 모델을 확보하는 방어법을 겨루는 대회다.
연구팀은 이번 대회에서 ▲ 모델 양자화 ▲ 모델 병합 ▲ 이상치 매개변수 탐지 ▲ 과신뢰 방지를 결합한 전략을 선보였다.
윤지은 연구원은 “생성 과제에서는 같은 작업을 수행하는 모델이라도 백도어가 심어진 양상이 서로 달랐다”며 “먼저, 모델 양자화 과정에서 생기는 미세한 흔들림으로 숨어 있던 백도어 신호를 흐트러뜨렸다’고 말했다.
윤 연구원은 “여러 모델이 공통적으로 유지하는 정보만 남기는 합의 기반 모델 병합 기법을 적용해 악의적인 반응을 약화시켰다”며 “분류와 다국어 과제에서는 접근법을 달리했다. 정상적으로 학습된 모델과 백도어가 삽입된 모델을 비교해 비정상적으로 바뀐 부분을 찾아 영향력을 줄였다”고 설명했다.
한편 이 대회 우승은 중국과학원(CAS)에 돌아갔다.
