통계분석, 머신러닝을 이용한 데이터 분석

임상 보고서의 토픽 모델

30 Dec 2016

잠재 디리클레 할당을 이용하여 의료 데이터 분석한 조사의 마지막이다. 이 연구에서 사용한 데이터는 임상 보고서인데, 임상 보고서라는 점에서 의료비를 중심으로 기록한 의료 명세서보다 의학적인 정보가 더 많이 담겨있었다고 본다. 굉장히 짧은 논문임에도 의료 데이터로 어떤 순서로 의료 조치가 있었는지 재구성한 결과를 보여줘서 인상적이었다.

목적

환자의 임상 보고서에서 시간적 토픽 패턴을 추출하고, 토픽들 간의 시간적 관계를 일반화 하려는 목적

데이터셋

방법

베타 분포(π)로 시간 모델을 추가한 LDA 사용

image alt text

image alt text

환자가 종양의 수술적 절제를 먼저 하고나서 방사선 전문의가 수술 경과를 MRI로 찍어봄.

아래 그림에서 보듯, 토픽간의 시간적 순서가 명확히 보임.

진단용 검사 -> 수술 -> 방사선 치료 -> 치료후 검사

수술적 치료가 불가능한 암환자의 경우, 수술적 절제(surgical resection)토픽에 포함되지 않음.

image alt text

시사점

문서 수가 많은 환자군에 의해 토픽의 단어 분포 바이어스 발생.

충분히 많은 환자군으로 바이어스를 완화시킬 수 있지만, 환자당 문서수가 상이한 특징이 있음. (예컨대 말기에 암을 발견한 환자의 경우 금방 사망하고, 관련 문서도 적을 수 밖에 없음)

이 연구는 문서 개수의 비율에 따라 단어를 샘플링 하여 토픽 모델링 하라고 제안함.

참고 문헌

[1] Arnold, C., & Speier, W. (2012). A topic model of clinical reports. In Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval - SIGIR ‘12 (p. 1031). New York, New York, USA: ACM Press. https://doi.org/10.1145/2348283.2348454

comments powered by Disqus