의료데이터 중개 (데이터 질, 편향성, 수익모델)

3년 동안 쌓은 25만 건의 임상 데이터, 그리고 그것을 기업에 연결해주는 중개 포털. 대구시가 조용히 꽤 묵직한 인프라를 만들어놨다는 걸 알았을 때, 솔직히 예상보다 훨씬 실질적이라는 생각이 먼저 들었습니다. 의료 AI 개발에서 데이터는 전부라고 해도 과언이 아닌데, 그 전부를 공공이 정비해서 내놓겠다는 시도이기 때문입니다.

데이터 질(Quality)이 진짜 승부처입니다

의료 AI 개발에서 '데이터가 많으면 좋다'는 건 반만 맞는 말입니다. 제 경험상 이건 좀 다릅니다. 방대한 데이터를 다뤄보면, 양보다 질이 발목을 잡는 경우가 훨씬 많습니다. 컴퓨터단층촬영(CT)이나 자기공명영상(MRI) 영상 하나가 AI에게 의미를 가지려면, 해당 환자의 병력과 혈액 수치, 전문의의 판독 소견이 정교하게 묶여 있어야 합니다. CT란 X선을 여러 각도에서 촬영해 인체 단면을 입체적으로 재구성한 영상 검사이고, MRI란 자기장과 전파를 이용해 연조직까지 세밀하게 촬영하는 방식입니다. 각각의 영상만 있어서는 AI 학습에 쓸 수 있는 완성된 데이터가 아닙니다.

더 큰 문제는 파편화입니다. A병원의 MRI 파일 포맷과 B병원의 포맷이 다르면, AI는 같은 정보를 다른 언어로 읽는 셈입니다. 대구시가 경북대학교병원, 계명대학교 동산의료원 등 거점 병원의 데이터를 한곳에서 통합하고 표준화했다는 점이 실질적으로 중요한 이유가 바로 여기에 있습니다. 통합 이전에는 기업이 각 병원과 개별 협약을 맺고, 데이터 형식을 맞추는 데만 수개월을 소모했을 것입니다. 이 시간을 단축해주는 것 자체가 경쟁력입니다.

K-의료데이터 중개 포털(www.k-health.re.kr)에 탑재된 자료는 뇌신경·심혈관 질환에 특화된 영상 데이터와 환자의 생체 신호, 진단 정보가 담긴 정형 데이터(Structured Data)로 구성되어 있습니다. 정형 데이터란 표나 데이터베이스처럼 행과 열로 정리된 구조화된 형태의 데이터를 뜻합니다. 올해는 여기에 2만 건의 특화 질환 데이터와 기업 수요 맞춤형 2,500건이 추가로 구축될 예정입니다.

가명화 처리와 데이터 편향성, 실제로는 어떨까요

일반적으로 가명화(Pseudonymization)를 거친 데이터는 안전하다고 알려져 있지만, 제 생각에는 이 부분을 조금 더 냉정하게 볼 필요가 있습니다. 가명화란 개인 식별 정보를 제거하거나 대체해 특정인을 알아볼 수 없도록 처리하는 기술입니다. 대구시는 데이터심의위원회(DRB)와 의생명윤리위원회(IRB)의 이중 심의를 거쳐 데이터를 제공한다고 밝혔습니다. IRB란 의학 연구에서 피험자 권리와 안전을 보호하기 위해 연구 계획을 사전에 검토하는 기관 내 심의 기구입니다.

그러나 CT나 MRI 같은 영상 데이터는 안면 재건 알고리즘이나 골격 분석 기술을 통해 특정 개인을 유추할 가능성이 미세하게나마 존재합니다. 재식별(Re-identification)이라 부르는 이 위험은 단 한 건의 사고만으로도 사업 전체를 법적 분쟁으로 몰아넣을 수 있습니다. 재식별이란 가명화된 데이터를 다른 외부 데이터와 결합해 원래 개인을 특정해내는 행위입니다. 기술적 보안만이 아니라 데이터 반출 이후 기업의 활용 범위와 파기 의무까지 아우르는 사후 관리 체계가 포털 운영의 핵심이 되어야 한다고 봅니다.

편향성 문제도 짚어야 합니다. 대구·경북 거점 병원의 데이터는 영남권 인구의 유전적·생활 습관적 특성을 짙게 반영할 가능성이 높습니다. 이 데이터로 학습한 AI 솔루션이 인종 구성이나 식습관이 전혀 다른 북미나 유럽 시장에서 동일한 정확도를 낼 수 있을지는 미지수입니다. '글로벌 진출'을 목표로 한다면, 대전·광주 권역과의 협력을 넘어 글로벌 표준 임상 데이터와 교차 검증(Cross-validation)하는 로드맵이 구체적으로 나와야 한다고 생각합니다.

실제로 미국 FDA의 AI 의료기기 가이드라인(FDA AI/ML-enabled Medical Devices)에서도 AI 의료기기 허가 심사에서 학습 데이터의 인종 및 인구 다양성을 핵심 평가 항목으로 명시하고 있습니다. 글로벌 인허가를 노린다면 데이터 다양성은 선택이 아닙니다.

성과는 실재하지만, 수익모델이 없으면 지속하기 어렵습니다

이 사업이 단순한 선언으로 끝나지 않았다는 증거는 이미 나오고 있습니다. ㈜신라시스템은 척추 AI 솔루션으로, ㈜빔웍스는 유방암 AI 솔루션으로 국내외 의료기기 인허가를 획득하거나 신청했습니다. ㈜인더텍은 독일 뒤셀도르프에서 열리는 세계 최대 의료기기 전시회 MEDICA에서 2억 원 규모의 공급 계약을 체결했고, 바이오링크㈜는 병원 10곳과 구매확약서를 체결했습니다. 제가 직접 국내 AI 의료기기 스타트업들의 사례를 여럿 살펴봤는데, 이 정도 속도의 인허가 및 계약 성과는 데이터 인프라 없이는 나오기 어렵습니다.

그러나 지금의 구조에서 제가 가장 걱정되는 지점은 지속 가능성입니다. 현재 사업은 대구디지털혁신진흥원(DIP)이 주관하고 공공 예산으로 운영됩니다. 공공 지원이 끊겼을 때 병원들이 자발적으로 데이터를 계속 제공할 유인이 있는지가 명확하지 않습니다. '황금알을 낳는 거위'라는 비유가 맞으려면, 거위인 병원에게도 실질적인 보상이 돌아가야 합니다.

지속 가능한 의료데이터 중개 플랫폼을 위해 반드시 점검해야 할 요소들을 정리하면 아래와 같습니다.

  1. 데이터 제공 병원에 대한 명확한 수익 배분 모델 수립 — 데이터를 활용해 수익을 올린 기업이 병원에 일정 지분을 환원하는 구조가 필요합니다.
  2. 글로벌 데이터 다양성 확보를 위한 해외 병원 네트워크 연결 — FDA나 유럽 CE 인증을 겨냥한다면 영남권 편향 데이터만으로는 한계가 있습니다.
  3. 재식별 위험에 대비한 상시 모니터링 체계와 기업 데이터 활용 감사 시스템 구축 — 유출 사고 하나가 사업 전체를 흔들 수 있습니다.
  4. 공공 지원 종료 이후 자립 운영을 위한 수수료 기반 비즈니스 모델 설계 — 데이터 이용료를 기업이 부담하되, 병원과 운영 기관이 합리적으로 나누는 구조입니다.

이 네 가지 중 하나라도 빠진 채로 사업이 확장되면, 나중에 훨씬 큰 비용을 치르게 될 가능성이 있습니다. 특히 수익 모델과 보안 체계는 지금 당장 설계하지 않으면 나중에 끼워넣기가 매우 어렵습니다.

글로벌 의료 AI 경쟁에서 대구가 의미 있는 이유

의료 AI 시장에서 데이터는 국경을 넘는 자원입니다. 미국 빅테크들은 수십억 달러를 투자해 병원 EMR(전자의무기록) 데이터를 확보하는 경쟁을 벌이고 있습니다. EMR이란 환자의 진료 기록, 처방 이력, 검사 결과 등을 디지털로 통합 저장한 시스템을 뜻합니다. 그 경쟁 구도에서 국내 중소 AI 기업이 단독으로 임상 데이터를 구축하는 건 사실상 불가능합니다. 제 경험상 데이터 수집과 정제에 드는 시간이 알고리즘 개발보다 훨씬 길고 비쌉니다.

대구시의 접근 방식은 그 공백을 공공이 채워주겠다는 것입니다. 실제로 보건복지부(출처: 보건복지부 공식 홈페이지)도 의료데이터 활용 촉진을 위한 제도 정비를 지속적으로 추진하고 있어, 정책적 흐름과도 방향이 맞닿아 있습니다. 알고리즘 정확도(Accuracy)를 높이려면 균질하고 표준화된 데이터가 필수이고, 이를 지자체가 먼저 구축해 제공하는 모델은 적어도 국내에서는 가장 빠른 길입니다. 알고리즘 정확도란 AI 모델이 실제 정답을 얼마나 맞히는지를 수치로 나타낸 지표입니다.

㈜엑스큐브의 심혈관 AI 솔루션, 신라시스템의 척추 솔루션 같은 사례는 데이터 인프라가 실제 제품화로 이어진다는 것을 보여줍니다. 이 방향은 맞습니다. 다만 잘 깔린 인프라가 일회성으로 끝나지 않으려면, 지금부터 수익 구조와 보안 체계를 동시에 설계해야 합니다. 인프라만 좋고 운영 모델이 없으면 결국 세금으로 지은 빈 창고가 됩니다.

대구시의 의료데이터 중개 사업은 국내에서 드문 선도적

댓글

이 블로그의 인기 게시물

반려인 주거불안 (임대차특약, 보호자교육, 빅데이터)

촉법소년 연령 하향 (현장 배경, 시스템 분석, 향후 전망)