예측모델은 새로운 데이터가 들어올 때마다 업데이트해야한다. 그래야 실험할때 도달했던 성능을 계속 보장할 수 있다. 그렇지 않다면 적어도 새로운 데이터가 들어왔을 때 모델의 예측값이 얼마나 확실한지 정확히 말해줄 수 있어야 한다. 관련된 연구가 많이 있지만, EHR 처럼 자료형이 섞여있는 테이블 형태 데이터에 집중한 연구는 정말로 드물다.
헬스케어 분야에서는 모델은 해석가능해야 하고, 믿을만한 예측을 보여줘야 한다. 실험할때 보지 못했던 새로운 샘플을 구분할 수 있어야 한다. 샘플의 다양성과 관계없이 일반적으로 쓸 수 있는 모델을 만들길 바라겠지만 현실에서는 이 바람이 언제나 충족되진 않는다. 대표적인 예가 COVID-19 이다. 이 전염병이 세계적으로 퍼지기 전에 사용되던 모델은 COVID-19 증상이 없던 환자들로만 구성된 데이터로 학습되었다. 결과적으로 이 모델은 COVID-19 환자에 대해 예측하더라도 낮은 확신을 가져야 한다. 그럼으로써 이 결과를 받아보는 의사나 간호사가 잘못 판단하지 않게 해야한다.
Alsentzer et al. 연구는 사망예측모델에 임상적으로 가능한 out-of-distribution 샘플을 넣어서 불확실성을 측정했다. 기존에 발표된 예측의 불확실성을 평가하는 방법이 사망예측모델에 적용해보니 설득력 있는 결과가 거의 없었다는 결론이다.
- ood 실험: 환자군 바꾸기, 임상 프로토콜 바꾸기, 데이터 손상시키기
- 기존의 불환실성 평가 기법의 실험 결가
- 의료 데이터셋을 사용하여 ood 탐지 벤치마크 제공
실험 방법
- 예측 모델: 중환자실 입원 ~ 48시간까지 데이터로 원내 사망 예측
- 데이터셋: MIMIC-III, eICU
- 피처 선택:
- 양쪽 데이터셋에 모두 존재하는 임상적 변수만 포함시킴
- 입원 ~ 48시간까지 7개의 시계열 데이터에서 6개 통계치 추출
- 7개 시계열: 전체 시계열, 앞에서 10%, 뒤에서 10%, 앞에서 25%, 뒤에서 25%, 앞에서 50%, 뒤에서 50%
- 6개 통계치: 최소, 최대, 평균, 표준편차, skew, count (모두 표준화 및 평균 보간함
ood 데이터
- 연령, 인종, 성별에 따라 환자군을 준비함.
- 응급, 예약에 따라 환자군 준비함.
- 진단명에 따라 환자군 준비함.(신부전, 뇌전증, 고혈압, 갑상선 등)
- 새로운 증상으로 꾸민 환자군 만듬.
- 각 환자군이 충분히 이질적인지 확인하기 위해서 feature-wise 웰치 t-test 함.
ood 탐지 메트릭
- single models, bayesian models, emsemble models, density estimation baselines
모델 평가
- auroc로 평가: 사망예측 문제에서는 사망여부로 정확도를 측정하는 척도이나 ood 문제에서는 in-distribution 과 ood 중에 하나로 분류한 성능으로 간주함.
흥미로운 점
- 뉴럴모델은 features space를 잠재적으로 닫히지 않은 결정영역들로 구분하는데, 이로인해 training data가 관측된적 없는 큰 공간을 만들게 됨. 이 공간이 있다는 것이 ood 샘플을 제대로 식별하지 못하게 함.
- 앙상블 모델인 경우 모델마다 다른 예측을 냈을때, 각 모델의 결정영역이 덜 겹치는 결과를 낳고, 이로인해 높은 불확실성을 만듬.
- 불확실성 측정은 헬스케어와 같이 안전성이 중요한 영역에 신중히 적용해야함.
- http://proceedings.mlr.press/v136/ulmer20a.html