통계분석, 머신러닝을 이용한 데이터 분석

진료 기록 마이닝을 위한 질병-의약품 토픽 모델링

28 Dec 2016

나는 의료 명세서 데이터가 일종의 문서셋이라고 생각한다. 그래서 대량의 문서 분석 기법-문서 분류, 문서 군집-을 의료 명세서 데이터에도 활용할 수 있겠다고 생각한다. 잠재 디리클레 할당은 문서에서 주제를 뽑아내는 차원 축소 기법이라 할 수 있는데, 예를 들어 수백만개의 문서들을 150개의 주제로 추려서 전체적인 분포를 파악하는데 큰 도움을 준다. 그래서, 잠재 디리클레 할당 혹은 이를 확장한 기법을 이용하여 의료 데이터를 분석한 연구를 조사했다.

목적

의사는 환자의 상태를 복합적으로 고려하여 진단함. 예를 들면, 환자 진료기록이 ‘asthma/천식’으로 두번 진단 받았을 때, 각 처방약은 ‘Fluticasone’ 한번과 ‘Acebrophylline’ 한번 이라면, 그 진료 기록은 두가지 종류의 천식을 암시함.

의사의 진단/처방이 기록된 HIRA 데이터의 의료명세서를 분석하여 처방된 약과 질병을 함께 모델링 하려는 연구임. 모델의 이름은 Disease Medicine Topic Model

플루티카손: 계절성 알레르기성 비염, 고초열, 다년성 비염

아세브로필린: 기도폐쇄성 장애 및 점액분비장애로 인한 급ㆍ만성 호흡기질환, 급ㆍ만성기관지염, 기관지 천식, 부비강염, 건성비염

데이터셋

2009~2011년 HIRA National Patients Sample(NPS, 입원환자 13%) 데이터 중, 2009년만 사용

2천7백만개 명세서 중 long-term patient information를 대상으로 선정 (100 건 미만 명세서를 가진 환자는 제외)

명세서: 189,086 건

환자수: 1514 명

질병(주상병): 2,329 종

약(주성분): 3,934 종

진단명(Korean Standard Classification of Diseases (KSCD)), 처방약(주성분 코드)을 사용함.

방법

P: 환자들

R: 의료 기록들

θ: 환자 마다 갖는 토픽 비율들 (디리클레 분포를 따름)

z: 진료 기록마다 특정 토픽 z에 할당됨

d: 질병 d는 특정 토픽의 질병군에 관한 다항 분포로부터 생성됨.

m: 의약품 m은 특정 토픽의 의약폼군에 관한 다항 분포로부터 생성됨.

각 토픽은 질병군에 대한 질병 비율(β)과 의약품 군에 대한 의약품 비율(γ)로써 정의됨.

왼쪽 모델: LDA, 오른쪽 모델: DMTM

image alt text

Topic coherence(tc): 한 토픽의 단어쌍들이 함께 나타나는 문서 빈도로 토픽 모델링 평가함.

높은 tc 값일 수록 토픽의 품질이 높음.

K=20 (토픽 20개)로 모델링

아래 테이블은 tc값 높은 상위 5개 토픽의 단어셋(질병명)을 나타냄.

LDA는 모호한 토픽모델링을 보여줌.

상이한 질병을 한 토픽으로 묶는 경향이 있음.

예) 토픽 11번 : 척추강직(spondylosis)와 당뇨(diabetes)

예) 토픽 6번: 기관지염(bronchitis)과 방광염(cystitis)

예) 토픽 2번: 불면증(insomnia)와 척추강직(spondylosis)

의료 전문가의 입장에서 LDA의 토픽 모델링이 정말 모호한지는 의문임. 척추강직인 경우 통증으로 잠을 잘 못자서 수면제나 항우울제 등을 복용하는 경우가 종종 있고, 당뇨병 유병기간이 길 수록 류마티스 질환의 발병률이 높게 나타나기 때문에, LDA 결과를 모호하다고 하기에 의문..

image alt text

DMTM은 좀더 일관되게 구성된 토픽을 보여줌.

예) 토픽 4번: 소화기관 질병군

예) 토픽 11, 20번:기관지염 질병군, 11번은 주로 보통 감기, 20번은 2차 감염 치료

예) 토픽 16번: 감염

예) 토픽 15번: 정신 질환군

image alt text

네트워크 분석

image alt text

질병(D)만으로 LDA

image alt text

질병(D)과 약(M)을 함께 LDA, 네트워크 분석.

비슷한 질병, 다른 약 처방

LDA 에서 토픽 20번은 기관지염 토픽군의 중심인데, DMTM에서는 아무 토픽과도 연결선이 없음.

다른 질병, 비슷한 약 처방

LDA에서 토픽 6은 토픽 17과만 연결되어있는데, DMTM에서는 5개의 토픽과 연결되었음.

image alt text

굵은 폰트: 상위 5개 값

10, 12, 15, 17, 19 토픽이 다른 토픽과 질병이나 처방약이 공통으로 나타남.

6, 9 토픽이 처방약이 공통적으로 나타나고, 질병은 서로 다름

20 토픽은 처방약이 서로 다르고, 질병이 공통적임.

참고 문헌

[1] Park, S., Choi, D., Lee, W., Jung, D., Kim, M., & Moon, I.-C. (2014). Disease-medicine topic model for prescription record mining. In 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC) (pp. 86–93). IEEE. https://doi.org/10.1109/SMC.2014.6973889

comments powered by Disqus