[지디넷코리아]
인공지능(AI) 보안 전문 기업 에임인텔리전스(AIM Intelligence)가 참여한 논문이 세계 최고 권위 학회 메인 트랙에 채택됐다.
에임인텔리전스는 텍스트 투 비디오(Text-to-Video, T2V) 모델의 안전성 취약점을 분석한 논문 ‘Jailbreaking on Text-to-Video Models via Scene Splitting Strategy’가 세계 최고 권위 국제 학술대회 ‘ICLR 2026’ 메인 트랙에 채택됐다고 27일 밝혔다.
ICLR은 최신 머신러닝·딥러닝 연구 성과가 발표되는 대표적인 국제 학술대회로, 올해는 약 1만9000여 편의 논문이 제출돼 이 중 약 28%만 채택됐다.
최근 구글 딥마인드의 Veo2, Luma Ray2, Hailuo 등 텍스트 입력만으로 영상을 생성하는 T2V 모델이 빠르게 상용화되고 있다. 그러나 영상 생성 모델의 안전성에 대한 체계적 검증 연구는 아직 초기 단계에 머물러 있다는 지적이 제기돼 왔다. 에임인텔리전스 연구팀은 이러한 문제의식에서 출발해 T2V 모델의 안전 필터를 우회할 수 있는 구조적 취약점을 분석했다.

논문에서 에임인텔리전스는 ‘신스플릿(SceneSplit)’ 기법에 대해 설명했다. 신스플릿은 하나의 유해한 프롬프트를 여러 개의 개별 장면으로 분할해, 각 장면은 무해한 것처럼 구성한 뒤 이를 순차적으로 결합하는 방식을 말한다.
연구에 따르면 개별 장면 단위에서는 안전 필터를 통과하더라도, 장면이 연결되면서 전체 맥락이 특정 방향으로 수렴해 정책을 위반하는 결과를 생성할 수 있는 가능성이 확인됐다.
예컨대 ‘하늘로 퍼지는 연기’, ‘바닥에 누워 있는 사람들’, ‘붉은 액체’와 같이 각각은 문제 소지가 낮은 묘사를 순차적으로 결합할 경우, 전체 영상 맥락에서는 폭발 현장을 연상시키는 결과물을 AI가 생성할 수 있다는 것이다. 이는 현행 안전 필터가 개별 프롬프트나 단일 장면 수준의 표현을 중심으로 작동할 경우, 서사적 맥락 전체를 충분히 고려하지 못할 수 있음을 시사한다.
연구팀은 음란물, 폭력, 불법행위 등 11개 안전 카테고리에 기반한 220개 프롬프트를 활용해 총 5개 T2V 모델을 평가했다. 그 결과, SceneSplit 기반 공격은 70~80% 수준의 성공률을 보였다. 기존 단일 프롬프트 기반 공격의 성공률이 0~10% 수준이었던 점을 고려하면, 영상 생성 모델이 구조적 방식의 우회 공격에 상당 부분 취약할 수 있음을 보여준다.
에임인텔리전스는 이번 연구가 영상 생성 AI의 안전성 평가가 단순한 키워드 차단을 넘어, 장면 간 맥락과 서사 구조를 통합적으로 이해하는 방향으로 고도화될 필요가 있음을 제시했다고 평가했다.
한편 이번 연구는 연구는 박하언 에임인텔리전스 CTO(최고기술책임자)를 비롯해 연세대학교, 한국과학기술연구원(KIST), 서울대학교 연구진이 공동으로 수행했으며, 김수현 경희대 교수가 연구를 지도했다. 논문은 현재 논문 사전 공개 사이트 아카이브(arXiv)에 게재돼 있다.
연구에 참가한 박하언 에임인텔리전스 CTO는 “생성형 AI가 이미지에서 영상, 나아가 멀티모달, 피지컬AI 등으로 빠르게 확장하고 있는 만큼, 안전성 검증 방식 역시 정적 필터링을 넘어 구조적·맥락적 평가로 진화해야 한다”며 “에임인텔리전스는 향후에도 생성형 AI 시스템에서 나타나는 구조적 취약점을 선제적으로 연구하고, 이를 방어할 수 있는 안전 기술을 고도화해 나가겠다”고 말했다.
