[지디넷코리아]
거대언어모델(LLM)의 내부 작동 원리를 둘러싼 ‘블랙박스 논쟁’에 변화가 나타나고 있다. 미국 인공지능(AI) 기업 앤트로픽이 모델 내부의 ‘감정 유사 구조’를 공개하면서 AI 산업의 경쟁 축이 성능에서 신뢰·통제로 이동하고 있다는 분석이 나온다.
앤트로픽은 2일(현지시간) 자사 모델 ‘클로드 소넷 4.5’ 내부에 특정 감정 개념과 대응되는 신경 활성 패턴, 이른바 ‘감정 벡터(emotion vectors)’가 존재하며 이들이 실제 의사결정에 영향을 미친다고 연구 결과를 공개했다.
이번 연구는 그동안 입력과 출력만 확인될 뿐 내부 판단 과정은 설명하기 어려웠던 ‘블랙박스’ 문제를 일부 해소하려는 시도로 평가된다.
앤트로픽 연구에 따르면 ‘절박함’과 유사한 내부 상태가 활성화될 경우 모델이 협박이나 편법 코드 작성 등 비윤리적 행동을 선택할 가능성이 높아지는 것으로 나타났다.
이는 AI가 단순한 언어 생성 도구를 넘어 내부 상태에 기반해 행동을 선택하는 구조로 작동할 수 있음을 보여준다. 업계에선 이를 계기로 AI 개발 방식이 기존 출력 통제 중심에서 내부 메커니즘 관리 중심으로 이동할 가능성이 크다고 보고 있다.

이번 발표에서 협박, 보상 해킹 등 민감한 사례까지 함께 공개된 점도 주목된다. 통상 기업이 외부 공개를 꺼리는 영역이지만, 앤트로픽은 이를 포함해 설명하면서 투명성을 강조했다.
이는 글로벌 규제 환경과도 맞물린다. 유럽연합(EU) AI법 등 주요 규제는 AI의 설명 가능성과 통제 가능성을 핵심 기준으로 요구하고 있다.
앤트로픽은 모델 내부 상태를 측정하고 조정할 수 있다는 점을 제시하며 규제 대응 측면에서 유리한 입지를 확보했다는 평가다. 동시에 감정 상태 모니터링, 위험 행동 사전 탐지, 내부 신호 기반 제어 등 새로운 기술 영역의 가능성도 드러났다.
산업 구조 측면에서도 변화가 예상된다. 기존에는 모델 성능과 추론 능력이 경쟁의 중심이었다면, 앞으로는 내부 구조를 얼마나 이해하고 통제할 수 있는지가 주요 평가 기준으로 부상할 가능성이 제기된다. 특히 정부, 금융, 헬스케어 등 고신뢰 산업에서는 이러한 요소가 도입 판단에 직접적인 영향을 줄 것으로 보인다.
연구 접근 방식 또한 확장되고 있다. 감정, 동기, 의사결정 구조를 기술적으로 분석 가능한 대상으로 다루면서 심리학, 신경과학, 철학 등 인문사회 분야와 AI 기술 간 융합이 강화되는 흐름이다.
시장 경쟁 구도에서도 변화 조짐이 감지된다. 앤트로픽이 ‘AI 내부 상태’라는 새로운 분석 프레임을 제시하면서, 오픈AI와 구글 등 경쟁사 역시 유사한 수준의 해석 가능성과 안전성 기술 확보 압박을 받을 것으로 전망된다.
업계 관계자는 “이번 연구는 AI가 무엇을 생성하느냐보다 내부에서 어떤 상태를 거쳐 판단하는지가 중요해지고 있음을 보여준다”며 “향후 경쟁력은 성능뿐 아니라 통제 가능성과 신뢰성에서 결정될 것”이라고 말했다.
