통계분석, 머신러닝을 이용한 데이터 분석

간단리뷰: A clinically applicable approach to continuous prediction of future acute kidney injury

18 Aug 2019

인코딩 수치형 -> normal, low, high 등으로 변환 범주형 -> one-hot encoding

데이터를 총 29개의 카테고리로 분류함 (의료행위, 진단, 투약 등) 특히 AKI 진단에 중요한 크레아티닌은 다양한 통계치를 변수화했음 3가지 기간으로 과거 데이터의 요약을 만들었음 (지난 48시간, 6개월, 5년)

타임스텝 1day = 4개의 6h 버켓 + 1개의 unknown-time entries 버켓 정확한 시간을 알수 있는 35% 데이터만 6h로 데이터를 잘라서 그룹화 나머지는 따로 모아서 별도의 unknown-time entries bucket을 만듬 진단은 data leak을 방지하기위해 퇴원시점에 발생한것으로 처리함

타겟 데이터: AKI 예측변수 maximum future observed values of seven biochemical tests of renal function (향후 신장 기능을 의사가 이해하는데 도움을 줌.)

https://www.nature.com/articles/s41586-019-1390-1

comments powered by Disqus