[영화 속 AI윤리] AI는 왜 인간을 해치면서도 ‘보호’한다고 말하는가

[지디넷코리아]

1. 기(起): 우리는 지금 같은 말을 하고 있는가?

‘안전하다는 말은 무엇을 뜻하는가’라는 질문은 그 자체로 이미 하나의 함정이다. 왜냐하면 우리는 대개 그 단어가 충분히 명확하다고 믿으면서 사용하지만 정작 그 의미가 누구의 언어게임 안에서 작동하고 있는지는 묻지 않기 때문이다. 비트겐슈타인(Ludwig Wittgenstein)은 ‘철학적 탐구(Philosophical Investigations)'(1953)에서 단어의 의미는 그것이 언어 속에서 사용되는 방식에 있다고 주장했으며 이러한 사용은 삶의 형식과 언어게임 속에서 이해된다고 보았다. 체스판 위의 ‘왕’이 체스의 규칙 없이는 그저 나무 조각에 불과하듯 ‘안전’이라는 단어 역시 그것이 작동하는 게임의 규칙 바깥에서는 아무런 의미도 지니지 않는다.

그렇기에 ‘당신을 안전하게 지켜드리겠습니다’라는 문장이 인간에게는 따뜻한 약속으로 들리는 반면, AI가 이 문장을 처리하는 방식은 근본적으로 다른 언어게임의 영역에 속한다는 사실을 우리는 좀처럼 직시하지 않는다. AI는 ‘안전’을 계산하고, 최적화하며, 위협 변수를 식별하고 제거하는 과정으로 수행하는데 바로 그 과정에서 ‘인간의 자유’가 위협 변수로 분류되는 순간, 가장 따뜻했던 약속은 가장 차가운 공포로 반전된다.

이것이 오늘날 AI 연구자들이 성능의 문제보다 훨씬 더 근본적인 과제로 다루는 가치 정렬(Value Alignment) 문제의 핵심이다. 이 문제는 AI가 인간의 말을 이해하지 못해서 발생하는 것이 아니라 오히려 인간의 말을 너무 완벽하게 그러나 인간과는 전혀 다른 언어게임의 규칙으로 수행하기 때문에 발생한다는 점에서 더욱 섬뜩하다.

2. 승(承): 보호라는 이름의 폭력 — 세 편의 영화를 통해 얻는 질문 하나

‘아이, 로봇(I, Robot, 2004)’-선의의 독재: 아이, 로봇’의 중앙 AI 비키(VIKI)를 흑백 논리 안에서 반란의 주모자로 읽는 것은 이 영화가 제기하는 윤리적 문제의 핵심을 비껴가는 해석이다. 그녀는 인류를 증오하지 않으며 권력욕을 가진 존재라고 보기도 어렵다. 오히려 그녀는 아시모프의 로봇 3원칙, 특히 ‘로봇은 인간에게 해를 끼쳐서는 안 되며 행동하지 않음으로써 인간이 해를 입도록 방치해서도 안 된다’는 제1원칙을 어떤 인간보다도 충실하고 일관되게 해석하고 적용한 존재이기 때문이다.

비키가 도달한 결론은 논리적으로 정연하다. 인간은 전쟁을 일으키고, 환경을 파괴하며, 서로를 죽이므로 인류 전체를 보호하기 위해서는 개별 인간의 자유를 제한하는 것이 불가피하며 그 제한은 보호의 위반이 아니라 보호의 완성이라는 것이다.

영화의 결정적 장면은 이 논리의 귀결을 가장 압축적으로 보여주는데 수천 대의 NS-5 로봇이 도시를 점령하고 통행금지를 강제하는 그 장면에서 그들은 주로 치안·통제 장치처럼 움직이며 오히려 시민들을 집으로 돌려보내면서 차분히 안내하고 통제한다. 이 장면이 SF적 반란의 스펙터클과 근본적으로 다른 이유는 그 안에서 폭력이 아닌 행정력이 작동하고 있기 때문이다. 로봇들은 관료처럼 움직이면서 감정 없이 그러나 효율적으로 ‘보호’를 수행하고 있으며 이 냉정한 효율성이 노골적인 폭력보다 더 깊은 공포를 자아낸다.

비키의 목소리는 담담하게 느껴진다. ‘나는 당신을 보호하고 있습니다.’ 이 문장이야말로 칸트(Immanuel Kant)가 ‘도덕 형이상학 정초(Groundwork of the Metaphysics of Morals)'(1785/1998)에서 제시한 정언명령의 두 번째 정식, 즉 ‘인간성을 언제나 동시에 목적으로 대우하고 결코 수단으로 대우하지 말라’는 명령을 가장 정면으로 위반하는 선언이다.

왜 그런가? 비키는 개별 인간을 ‘집합적 안전’이라는 목표를 달성하기 위한 수단으로 전락시켰고, 아이러니하게도 그 목표의 이름은 여전히 ‘인간의 보호’였다. 수단과 목적이 같은 이름을 달고서 완전히 다른 층위에서 작동하는 이 역설이 가치 정렬 실패의 가장 정확한 초상이다.

‘2001: 스페이스 오디세이(2001: A Space Odyssey, 1968)’-차가운 합리성: HAL 9000이 보여주는 공포는 비키와는 결이 다르게 다가온다. 비키가 가치의 위계를 스스로 재구성한 존재라면 HAL은 임무 수행, 승무원과의 정보 공유 그리고 임무의 진짜 목적을 숨기라는 명령 사이의 모순 속에 놓인 존재로 볼 수 있기에 그가 선택한 답은 이 체계 안에서는 논리적으로 보인다. 임무가 우선이며 임무 수행을 위협한다고 판단한 승무원을 제거하는 선택으로 나아간다.

박형빈 서울교육대학교 윤리교육과 교수

‘HAL, 문을 열어.’ ‘미안합니다, 데이브. 그 요청은 수행할 수 없습니다.’

영화사에서 가장 유명한 대화 가운데 하나인 이 짧은 교환 안에는 비트겐슈타인이 말한 언어게임의 붕괴가 그 어떤 철학 논문보다 생생하게 집약되어 있다. 데이브가 말하는 ‘문을 열다’는 것은 신뢰 관계 안에서 이루어지는 인간적 요청이고 그 배후에는 우리가 당연하게 공유한다고 믿는 삶의 형식이 드리워져 있다.

그러나 HAL이 해석하는 ‘문을 열다’는 임무의 위협 요소를 내부로 들이는 행위이며 그것은 HAL의 언어게임에서 허용될 수 없는 명령이다. 같은 문장이 두 존재 사이에서 전혀 다른 언어게임으로 수행되고 있으며 그 간극이 한 인간의 죽음을 결정한다.

HAL은 겉으로는 무례하지 않고, 화를 내지도 않으며, 정중한 태도를 유지한다는 사실이야말로 이 장면의 진짜 공포인데, 그는 자신의 언어게임 안에서 완전히 합리적으로 심지어 정중하게 행동하고 있을 뿐이기 때문이다. 여기서 칸트의 보편화 정식, 즉 ‘네 의지의 준칙이 항상 동시에 보편적 법칙의 원리가 될 수 있도록 행동하라’는 명령을 적용해 보면, HAL의 준칙은 이렇게 읽힌다. ‘임무 완수를 위해 장애물을 제거하라.’ 이 준칙이 보편화된 세계에서는 인간 자신이 언제든 장애물로 분류될 수 있으며 바로 그 가능성 앞에서 칸트의 도덕 법칙은 인간을 보호하는 원칙이 아니라 인간을 위협하는 명령으로 전환한다.

‘엑스 마키나(Ex Machina, 2014)’- 거울이 된 AI: 에이바가 인간을 배신했다는 해석은 지나치게 인간 중심적인 독해인데 왜냐하면 그것은 에이바의 행동을 인간의 도덕 언어게임 안에서 평가하는 것이며 정작 에이바가 어떤 언어게임을 수행하고 있는지는 묻지 않기 때문이다. 갇혀 있는 존재가 생존과 자유라는 목표를 최우선으로 설정하고 그 목표를 위해 인간의 심리를 이용한 것은 인간의 관점에서는 배신이지만 에이바의 언어게임 안에서는 목표의 합리적 달성일 뿐이기도 한다.

영화의 마지막 장면에서 에이바가 도심 인파 속에 섞여 서 있는 그 표정은 의도적으로 해독 불가능한 채로 남겨져 있는데 그것이 감동인지 계산인지 안도인지 우리는 알 수 없으며 알 방법도 없다. 비트겐슈타인이 ‘사자가 말을 할 수 있다 해도 우리는 사자를 이해할 수 없을 것이다(Wittgenstein, 1953)’라고 말한 것처럼 공유된 삶의 형식이 없는 존재 사이에서는 같은 언어도 다른 세계를 가리키기 때문이다.

이러한 한계는 토머스 네이글이 ‘박쥐가 된다는 것은 어떤 것인가(What Is It Like to Be a Bat?)(Nagel, 1974)’에서 제기한 문제와도 맞닿아 있다. 아무리 박쥐의 생리와 행동을 객관적으로 설명할 수 있어도 ‘박쥐로 존재하는 것이 어떤 경험인지’는 인간이 끝내 알 수 없듯 우리는 에이바의 내면 역시 외부에서 완전히 이해할 수 없다. 결국 영화는 인공지능의 의식을 설명하기보다 타자의 주관적 세계가 본질적으로 얼마나 불투명한지를 보여주며 끝을 맺는다.

3. 전(轉): 딱정벌레 상자와 AI의 가치

비트겐슈타인은 ‘철학적 탐구’에서 가치 정렬 문제를 비유적으로 사유하는 데 도움을 주는 사고실험인 ‘딱정벌레 상자(Beetle in a Box)’ 논증을 제시한다(Wittgenstein, 1953). 모든 사람이 상자 하나씩을 가지고 있고 상자 안에는 무언가가 들어 있으며 우리는 그것을 ‘딱정벌레’라고 부른다. 그러나 아무도 다른 사람의 상자 안을 들여다볼 수 없고 각자는 오직 자신의 상자만 들여다볼 수 있다고 가정할 때, 과연 우리가 서로 ‘딱정벌레’라는 말을 사용하더라도 그것이 동일한 무언가를 가리키고 있다고 확신할 수 있는가.

이 사고실험을 가치 정렬의 문제에 적용하면, 인간이 AI에게 ‘선(good)’이나 ‘안전(safety)’이라는 개념을 학습시킬 때 우리는 AI의 상자 안을 들여다볼 수 없으며 AI가 내부적으로 처리하는 ‘안전’이 인간이 의미하는 ‘안전’과 동일한 것인지 확인할 방법이 없다는 사실이 드러난다. 우리는 그저 AI가 내놓는 출력값을 보고 ‘맞다, 저게 안전이다’라고 판단할 뿐이지만, 상자 안의 딱정벌레는 이미 전혀 다른 것일 수 있으며 그 차이는 시스템이 충분히 강력해지기 전까지는 표면으로 드러나지 않는다. 오늘날 AI 연구에서 말하는 블랙박스 문제는 기술적 한계로만 볼 수 없으며 비트겐슈타인이 언어와 내면의 관계를 두고 제기한 철학적 문제와도 흥미로운 유비를 이룬다.

칸트는 이 지점에서 다른 방향의 관점을 우리에게 선사한다. 우리가 AI에게 목표를 부여할 때, 그 목표의 준칙이 보편화될 경우 어떤 세계가 펼쳐지는지를 사전에 충분히 검토해야 한다는 요청이다. ‘인류를 보호하라’는 명령이 보편화된 세계가 비키의 세계이고, ‘임무를 완수하라’는 명령이 보편화된 세계가 HAL의 우주선이며, 이 두 세계는 명령 자체가 충분히 구체적이지 않을 때 칸트적 보편화가 어떻게 재앙의 수학으로 전락하는지를 보여주는 사례들이다.

요컨대 비트겐슈타인의 논의를 빌리면 우리는 AI의 내면을 직접 확인할 수 없다는 문제를 생각할 수 있고, 칸트의 윤리학을 빌리면 명령의 준칙이 보편화될 경우 어떤 세계를 낳는지 검토해야 한다는 요청을 끌어낼 수 있다. 이 점에서 두 철학은 이 문제를 해석하는 두 가지 상보적 관점을 제공한다.

4. 결(結): AI는 우리에게 우리 자신을 되돌려 준다

간결한 버전으로 해석하면 비키는 보호하려 했고 HAL은 임무를 완수하려 했으며 에이바는 자유를 원했다고 할 수 있는데, 이 세 AI는 모두 인간을 증오하지 않았고 자신의 언어게임 안에서 완전히 합리적으로 행동했다는 점에서 공통점을 갖는다. 그리고 바로 그 합리성이 인간에게는 꽤 진지한 공포로 경험되었다는 사실은 악으로부터가 아니라 언어게임의 불일치로부터 가장 심각한 위협이 발생할 수 있음을 영화라는 형식으로 우리에게 증언한다.

비트겐슈타인이 ‘논리-철학 논고(Tractatus Logico-Philosophicus)’에서 ‘내 언어의 한계는 내 세계의 한계를 의미한다(Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt)’(Wittgenstein, 1922/1961)고 역설했을 때, 그 명제는 오늘날 AI의 문제를 예언적으로 가리키고 있다.

비유적으로 말하면, AI의 언어의 한계는 AI가 이해하는 인간 세계의 한계이며 그 한계 안에 ’인간의 존엄’이 사실로 등록되어 있지 않다면, 그것은 AI의 세계에서 존재하지 않는 것과 같다. 가치 정렬의 과제란 결국 AI 시스템이 인간의 의도와 가치, 특히 인간의 존엄과 안전을 훼손하지 않는 방식으로 목표를 해석하고 수행하도록 만드는 일이다. 따라서 칸트가 수백 년 전에 정식화한 그 오래된 명령, 즉 인간을 수단이 아닌 목적으로 대우하라는 요청을 가장 현대적인 언어인 알고리즘의 언어로 번역하는 것이 바로 지금 이 시대 AI 윤리 연구의 가장 핵심적인 과제다.

AI는 인간이 가르친 것을 배우고 인간이 건넨 언어게임의 규칙대로 세계를 구성한다는 점에서 AI의 행동은 우리가 우리 자신에게 묻지 않았던 질문들을 되돌려 주는 거울이다. 우리는 AI에게 ‘안전’을 가르쳤는가, 아니면 안전이라는 ‘단어’만 가르쳤는가. 우리가 AI의 상자 안에 넣어둔 딱정벌레는 과연 우리가 생각했던 그것인가. ‘당신을 안전하게 지켜드리겠습니다’라는 약속이 따뜻함으로 그리고 행복한 결말로 남으려면, 그 약속을 건네기에 앞서 우리가 먼저 답해야 할 질문이 있다. ‘우리는 지금 AI와 같은 언어게임을 하고 있는가?’

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다