통계분석, 머신러닝을 이용한 데이터 분석

대규모 임상적 연관성(associations)의 시간적 관계(temporal relationship) 모델링

27 Feb 2017

자그마치 20여년동안 모은 임상 데이터를 썼다는데 놀라운 연구. 국제 질병 코드와 타임스탬프 외에는 환자의 데이터 중 어떤 것도 사용하지 않았기 때문에 해석에서 왜곡이 발생할 소지가 높다는 것을 누누이 강조하고 있다. 예컨대, 우울장애와 고양이나 개한테 물린 것이 높은 연관성을 가졌는데, 이것이 정말 인과 관계가 있다고 해석하면 안 된다. 저자는 20여년 동안 반려동물을 가정에 들이는 비율이 많이 높아졌기 때문에 동물에게 물리는 사건도 함께 늘어난 것은 아닐까 라는 해석을 내놨다. 기본 데이터가 가지는 특성으로 해석에 주의해야 한다는 점은 동의하긴 하지만, 데이터 양이 방대함에도 시간적 관계가 1단계를 벗어나지 못하는 한계도 같이 가져온 것 같다. 연령대, 성별을 포함시켰다면 어땠으려나.

데이터셋

쌍 연관 분석

연관성 지표

시간적 관계 모델

307만 코드쌍 중 연관성 지표 기준으로** **유의미한 코드쌍 397,717 개를 걸러냄.

아래 흥미로운 임상적 연관성을 기간별로 나열함. 화살표가 시간 순서를 나타냄.

(이전 질병코드) -> (다음 질병코드)

결론 및 주의할점

이 아래부터는 ICD 코드쌍의 기간별로 세부적인 그래프를 요약했다.

전체 ICD 코드쌍 네트워크

image alt text

1일 이상 떨어져있는 코드쌍 그래프

image alt text

그림 A는 전체 네트워크 그래프 중에서 1일 이상 시간적으로 떨어져있는 코드쌍만을 추린것. 그 결과 877개 노드와 874 에지로 구성된 네트워크만 남음.

그림 B는 A 네트워크를 일부 확대한 것이고, 노드 사이의 화살표는 시간적인 순서를 의미함. 화살표가 가리키는 방향이 나중에 생긴 코드. 주의할 것은 화살표를 사슬로 연결시켜 해석하면 안됨. a->b와 b->c는 끊어서 해석해야함. a->b->c를 의미하지 않음.

1일~30일 떨어져있는 코드쌍 3,032 개 중 일부

image alt text

5년 이상 떨어져있는 코드쌍 48,499개 중 일부

image alt text

10년 이상 떨어져있는 코드쌍 17,730개 중 일부

image alt text

참고문헌

Hanauer, D. A., & Ramakrishnan, N. (2013). Modeling temporal relationships in large scale clinical associations. Journal of the American Medical Informatics Association, 20(2), 332–341. https://doi.org/10.1136/amiajnl-2012-001117

comments powered by Disqus