통계분석, 머신러닝을 이용한 데이터 분석

자주 듣는 Podcast 모음

자주 듣는 podcast 모음을 카테고리 별로 정리해봤다. 만약에 데이터 분석부터 기계학습까지 관심이 있다면 아래 언급된 순서대로 하나씩 들어봐도 좋을 것 같다.

은닉 마코프 모델을 이용한 다변수 시계열 군집

잠재 디리클레 할당 관련한 것들을 리뷰하고서 수많은 의료 명세서를 몇 개의 주제로 요약할 수 있겠다는 감이 생겼다. 그러나 사람들은 병원에 한번 가고 말지 않는다. 같은 질환으로 혹은 다른 질환으로 계속 병원에 간다. 그래서 시간 흐름에 따라 의료 데이터를 분석하려면 어떻게 해야할지 궁금했다. 건강 궤적이란 개념이 이 지점에서 나온다. 건강 궤적에 대한 다양한 정의가 있긴 한데, 여기서 말하는 것은 개인의 건강 정보가 시간에 따라 변화하는 과정을 통틀어서 말한다. 개인의 건강 궤적을 만들어 내고나면, 유사한 궤적끼리 묶어서 환자군을 만들 수 있다. 이런 내용을 모형화 한 점이 이 연구에서 재밌었던 부분이다. 그러나 마지막 결과 그래프가 별로였다. 군집별로 질병에 걸린 순서가 각기 다른데, 기울기 그래프에서는 전혀 보이지 않아서 해석하기 어려웠다.

임상 보고서의 토픽 모델

잠재 디리클레 할당을 이용하여 의료 데이터 분석한 조사의 마지막이다. 이 연구에서 사용한 데이터는 임상 보고서인데, 임상 보고서라는 점에서 의료비를 중심으로 기록한 의료 명세서보다 의학적인 정보가 더 많이 담겨있었다고 본다. 굉장히 짧은 논문임에도 의료 데이터로 어떤 순서로 의료 조치가 있었는지 재구성한 결과를 보여줘서 인상적이었다.

질환명과 계층적 처방 패턴 분석

저번 포스팅에 이어서 잠재 디리클레 할당를 확장한 기법을 이용하여 의료 데이터를 분석한 연구를 조사했다. 이 연구는 LDA 대신에 HDP를 사용했다. LDA는 몇 개의 주제로 군집할 것인지 정해줘야 하는 반면, HDP는 최적의 주제 개수를 알아서 찾아준다.

진료 기록 마이닝을 위한 질병-의약품 토픽 모델링

나는 의료 명세서 데이터가 일종의 문서셋이라고 생각한다. 그래서 대량의 문서 분석 기법-문서 분류, 문서 군집-을 의료 명세서 데이터에도 활용할 수 있겠다고 생각한다. 잠재 디리클레 할당은 문서에서 주제를 뽑아내는 차원 축소 기법이라 할 수 있는데, 예를 들어 수백만개의 문서들을 150개의 주제로 추려서 전체적인 분포를 파악하는데 큰 도움을 준다. 그래서, 잠재 디리클레 할당 혹은 이를 확장한 기법을 이용하여 의료 데이터를 분석한 연구를 조사했다.

벌거벗은 통계학

image alt text

Ubuntu의 i3 window manager 사용 팁

i3 에서 desktop 없이 nautilus 실행하기 (원문)

고성능 파이썬 팁 - 벤치마크

텍스트 전처리나 모델링을 할 때 시간이 소요되는데, 성능을 모니터링 하기 위해 파이썬의 프로파일링 도구를 이용하고 있다. 시스템 명령어인 time, 파이썬 모듈인 timeit, cProfile, prun, lprun, mprun 을 알아보자.