최근 영국 기업들이 자사의 AI 시스템이 방사선 전문의보다 암을 더 잘 감지할 수 있다고 주장하면서 학계 연구원들은 이러한 알고리즘이 전성기를 맞이할 준비가 되지 않았을 수 있다고 경고하고 있다.

영국 의료 전문지인 메디씨티에 따르면 13일(현지시간)유방암을 감지하는 데 사용되는 알고리즘에 대한 12개의 연구를 검토한 결과 "방법론적 품질이 좋지 않은" 것으로 나타났으며 그 중 어느 것도 임상 실습에 적용할 수 없었다. 여기에는 지난해 구글 딥마인드가 선전한 연구도 포함 됐다고 밝혔다.

이 연구의 저자들은 이번 달 BMJ에 발표된 논문에서 “유방암 검진에서 AI 시스템을 사용하는 것에 대한 현재 증거는 임상 실습에 구현하는 데 필요한 품질과 양을 갖추기에는 아직 멀었다고 말했다.

워릭 대학 보건과학부의 연구원들이 작성한 리뷰에 따르면 알고리즘은 한 가지 공통된 한계를 공유했다.

이는 방사선 전문의의 결정을 지원하거나 독립적으로 분류 결정을 내리는 데 있어 임상 실습에서 얼마나 잘 작동하는지 알기 어렵게 만든다고 전했다.

알고리즘이 방사선 전문의가 이전에 놓친 암 사례를 표시한 경우 해당 환자의 실제 암 상태를 알기도 어렵다고 한다.

연구 중 5개는 AI를 방사선 전문의를 대체하는 것으로 테스트했으며, 그 중 4개는 선별 도구로, 3개는 독자 보조 도구로 테스트했습니다. 모든 알고리즘은 딥러닝을 사용했다.

연구자들이 제기한 또 다른 우려는 많은 연구가 일반 인구의 유방암을 반영하지 않을 수 있는 왜곡된 데이터 세트를 사용했다는 것입니다. 4개의 연구는 여성을 무작위로 등록했지만 나머지 연구는 특정 사례를 선택하거나 대조군을 사용하여 데이터 세트에 더 많은 암 환자를 추가했다.

마지막으로, 소규모 연구에서 유망한 결과는 대규모 연구에서 복제되지 않았습니다. 5개의 소규모 연구에서 AI 도구가 방사선 전문의보다 성능이 더 우수하다고 주장했지만, 규모가 작고 편견의 위험이 높으며 일반화할 수 없었습니다. 36개의 AI 도구를 한 명의 방사선 전문의와 비교한 3개의 대규모 연구에 따르면 그 중 94%가 방사선 전문의보다 정확도가 낮고 모두 두 명 이상의 방사선 전문의보다 정확도가 낮았다.

연구원들의 발견은 유방암 탐지를 위한 AI 모델에 초점을 맞춘 2019년에 발표된 23 건의 연구에 대한 검토를 포함하여 과거 논문에 의해 뒷받침된다 . 그 논문의 저자들은 또한 연구가 주로 소규모이고 후향적이며 암 비율이 높은 고도로 선택된 이미지 데이터 세트를 기반으로 한다고 말했다.

FDA 승인을 받은 AI 기기에 대한 보다 최근의 검토에서도 비슷한 우려가 제기되었다. 유방암에만 국한된 것은 아니지만 저자들은 거의 모든 알고리즘이 회고적 데이터를 기반으로 하고 있으며 얼마나 많은 사이트에서 평가를 받았는지 또는 다양한 환자 인구 통계에 걸쳐 성과와 같은 기본 정보가 부족하다고 경고했다

저작권자 © 시사비전 무단전재 및 재배포 금지