[지디넷코리아]

마이크로소프트(Microsoft)·아마존(Amazon)·오픈AI(OpenAI)가 잇달아 AI 건강 도구를 출시하고 있지만, 독립 전문가들의 검증 없이 대중에게 공개되는 것을 두고 연구자들의 우려가 커지고 있다.
MIT 테크놀로지 리뷰(MIT Technology Review)에 따르면, 마이크로소프트는 이달 초 자사 코파일럿(Copilot) 앱 내에 ‘코파일럿 헬스(Copilot Health)’를 출시했다. 이 서비스는 사용자가 의료 기록을 연동하고 건강 관련 질문을 할 수 있는 공간이다. 며칠 앞서 아마존(Amazon)도 기존에 ‘원 메디컬(One Medical)’ 회원에게만 제공하던 거대언어모델(LLM) 기반 도구 ‘헬스 AI(Health AI)’를 일반에 개방했다. 오픈AI(OpenAI)가 지난 1월 출시한 ‘챗GPT 헬스(ChatGPT Health)’와 의료 기록 접근 권한을 부여할 수 있는 앤트로픽(Anthropic)의 클로드(Claude)에 이어, AI 건강 서비스는 이제 하나의 산업 트렌드로 자리 잡았다.
기존 의료 시스템을 통해 건강 정보를 얻기 어려운 사람들이 많다는 점에서, 건강 상담 챗봇에 대한 수요는 분명히 존재한다. 일부 연구에서는 현재의 LLM이 안전하고 유용한 건강 조언을 제공할 수 있다는 결과도 나왔다. 그러나 연구자들은 이 도구들이 대중에게 광범위하게 공개되기 전에, 독립적인 전문가에 의한 보다 엄격한 평가를 거쳐야 한다고 강조한다.
건강처럼 위험 부담이 큰 영역에서 기업이 자체적으로 제품을 평가하는 것만으로는 신뢰를 얻기 어렵다. 특히 그 평가 결과가 외부 전문가 검토를 위해 공개되지 않는다면 더욱 그렇다. 옥스퍼드 인터넷 연구소(Oxford Internet Institute)의 박사과정 연구자 앤드루 빈(Andrew Bean)은 “더 많은 의료 서비스가 필요한 상황이라면, 효과가 있는 모든 경로를 반드시 추구해야 한다”며 “이 모델들이 실제로 배포할 수 있는 수준에 이르렀을 가능성은 충분하다”고 말했다. 그러면서도 “근거가 되는 증거 기반이 제대로 갖춰져야 한다”고 덧붙였다.
마이크로소프트 AI 건강 부문 부사장이자 전직 외과의사인 도미닉 킹(Dominic King)은 AI 기술의 발전을 코파일럿 헬스 출시의 핵심 이유로 꼽았다. 킹 부사장에 따르면 마이크로소프트는 하루 5000만 건의 건강 관련 질문을 받고 있으며, 건강은 코파일럿 모바일 앱에서 가장 많이 다뤄지는 주제다.
오픈AI 헬스 AI팀을 이끄는 카란 싱할(Karan Singhal)도 “건강 관련 제품을 출시하기 전부터 챗GPT에서 건강 관련 질문이 매우 빠른 속도로 늘고 있었다”고 밝혔다. 마운트 시나이 헬스 시스템(Mount Sinai Health system)의 최고 AI 책임자(Chief AI Officer) 기리쉬 나드카르니(Girish Nadkarni)는 이러한 현상에 대해 “의료 접근성이 낮기 때문에, 특히 특정 계층에게는 더욱 어렵기 때문에 이런 도구들이 존재하는 것”이라고 분석했다.
AI 건강 챗봇이 가진 긍정적 가능성 중 하나는 ‘트리아지(triage)’, 즉 증상의 경중을 판단해 의료 기관 방문 여부를 결정하는 것을 돕는 기능이다. 하지만 나드카르니 등 마운트 시나이 연구진이 발표한 최근 연구에 따르면, 챗GPT 헬스는 경증에는 과도한 치료를 권장하고 응급 상황은 제대로 파악하지 못하는 경우가 있었다.
이 연구는 독립적인 평가 없이 도구들이 공개되는 현실에 대한 우려를 수면 위로 끌어올렸다. 이 기사를 위해 인터뷰한 학계 전문가 6명 모두 AI 건강 챗봇이 독립 연구자의 안전성 검토 없이 출시되고 있다는 점에 우려를 표했다. 운동 계획 추천이나 의사에게 할 질문 제안 같은 기능은 비교적 위험이 낮지만, 트리아지나 진단·치료 방향 제시는 명백한 위험을 수반한다.
베스 이스라엘 디코니스 메디컬 센터(Beth Israel Deaconess Medical Center)의 내과 전문의이자 구글(Google)의 방문 연구원인 아담 로드먼(Adam Rodman)은 “사람들이 결국 이것을 진단과 치료 관리에 사용할 것이라는 점은 우리 모두 알고 있다”고 지적했다.
오픈AI는 챗봇이 현실적인 건강 대화에서 어떻게 반응하는지 평가하는 기준인 ‘헬스벤치(HealthBench)’를 자체 설계해 공개했다. 그러나 빈의 연구에 따르면 LLM이 가상의 의료 시나리오를 단독으로는 정확히 파악할 수 있더라도, 전문 지식이 없는 일반 사용자가 LLM의 도움을 받아 해당 시나리오를 분석하면 정답을 맞히는 경우가 3분의 1에 불과했다. 의학적 전문성이 없으면 어떤 정보가 중요한지 알지 못하거나, LLM의 답변을 잘못 해석할 수 있기 때문이다.
구글(Google)은 이달 초 자사의 의료용 LLM 챗봇 ‘아미(AMIE, Articulate Medical Intelligence Explorer)’를 대상으로 한 연구를 발표했다. 이 연구에서 아미의 진단 정확도는 의사와 동등했고, 연구 과정에서 큰 안전 우려는 발생하지 않았다. 그러나 구글은 아미를 조만간 공개할 계획이 없다고 밝혔다. 구글 딥마인드(Google DeepMind)의 연구 과학자 앨런 카르티케살링감(Alan Karthikesalingam)은 “진단과 치료를 위한 실제 적용에는 형평성, 공정성, 안전성 테스트에 대한 추가 연구를 포함해 반드시 해결해야 할 중요한 한계가 남아 있다”고 밝혔다.
스탠퍼드대학교(Stanford University) 의과대학 교수이자 의료 AI 평가 프레임워크인 ‘메드헬름(MedHELM)’을 이끈 니감 샤(Nigam Shah)는 “우리에게는 이 기업들의 출시를 막을 방법이 없다”며 “우리가 할 수 있는 것은 벤치마크를 위한 재원을 마련하는 것”이라고 말했다. 현재 오픈AI의 GPT-5는 메드헬름에서 가장 높은 점수를 기록하고 있다.
전문가 중 어느 누구도 AI 건강 LLM이 제3자 평가에서 완벽한 성능을 보여야만 출시될 수 있다고 주장하지는 않는다. 의사도 실수를 하며, 의료 접근성이 낮은 이들에게 항상 이용 가능한 AI 챗봇은 오류가 있더라도 현재보다 나은 대안이 될 수 있다는 시각도 있다. 그러나 현재의 근거 수준으로는, 현재 출시된 도구들이 실질적인 개선을 가져오는지, 아니면 위험이 이점을 초과하는지를 확신하기 어렵다는 것이 전문가들의 공통된 견해다.
자세한 내용은 MIT 테크놀로지 리뷰(MIT Technology Review)에서 확인할 수 있다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)
