통계분석, 머신러닝을 이용한 데이터 분석

EHR로 한번 만든 예측모델 얼마나 쓸 수 있을까?

20 Feb 2021

예측모델은 새로운 데이터가 들어올 때마다 업데이트해야한다. 그래야 실험할때 도달했던 성능을 계속 보장할 수 있다. 그렇지 않다면 적어도 새로운 데이터가 들어왔을 때 모델의 예측값이 얼마나 확실한지 정확히 말해줄 수 있어야 한다. 관련된 연구가 많이 있지만, EHR 처럼 자료형이 섞여있는 테이블 형태 데이터에 집중한 연구는 정말로 드물다.

헬스케어 분야에서는 모델은 해석가능해야 하고, 믿을만한 예측을 보여줘야 한다. 실험할때 보지 못했던 새로운 샘플을 구분할 수 있어야 한다. 샘플의 다양성과 관계없이 일반적으로 쓸 수 있는 모델을 만들길 바라겠지만 현실에서는 이 바람이 언제나 충족되진 않는다. 대표적인 예가 COVID-19 이다. 이 전염병이 세계적으로 퍼지기 전에 사용되던 모델은 COVID-19 증상이 없던 환자들로만 구성된 데이터로 학습되었다. 결과적으로 이 모델은 COVID-19 환자에 대해 예측하더라도 낮은 확신을 가져야 한다. 그럼으로써 이 결과를 받아보는 의사나 간호사가 잘못 판단하지 않게 해야한다.

Alsentzer et al. 연구는 사망예측모델에 임상적으로 가능한 out-of-distribution 샘플을 넣어서 불확실성을 측정했다. 기존에 발표된 예측의 불확실성을 평가하는 방법이 사망예측모델에 적용해보니 설득력 있는 결과가 거의 없었다는 결론이다.

실험 방법

ood 데이터

ood 탐지 메트릭

모델 평가

흥미로운 점

  1. http://proceedings.mlr.press/v136/ulmer20a.html

comments powered by Disqus