통계분석, 머신러닝을 이용한 데이터 분석

벌거벗은 통계학

28 Dec 2016

image alt text

통계학을 배우는 이유에서 공감갔던 부분은 정책, 프로그램, 약, 의료 처치, 기타 혁신의 효과를 높이기 위해서 라는 부분이었다. 인상 깊었던 부분을 몇 가지 메모해본다.

데이터를 요약하기 위한 중요한 지표

중앙값, 사분위수, 표준 편차 등은 데이터를 이해하는 단순하고도 강력한 지표임을 다시 확인했다.

정확성과 정밀성의 함정

골프공과 홀까지의 거리를 계산해주는 거리 측정기 예제가 인상적이었다. 가장 정밀한 측정치들과 계산값들이라 하더라도 반드시 상식에 반하지 않는지 점검해야 한다는 말이 기억에 남았다. 적절한 비유일진 모르겠지만 Scikit learn을 자주 사용하는 내게 중요한 지침이 될 것 같다. 잘 만들어지고 편리한 툴이라도 제대로 사용하는 것이 중요하기 때문이고, 특히나 툴을 사용하다보면 그 사용법이나 결과값에 집중하느라 큰 그림에서 뭘 잡아내려 했는지 놓치는 경우가 있기 때문이다.

분석 단위의 함정

학교 시험처럼 성과 측정치에 통계적인 해석의 여지가 많다. 학교별로 통계를 내는지, 전체 학생을 대상으로 계산하는지에 따라 분석 단위가 달라진다. 연습삼아 PISA 데이터를 분석해보다가 유사한 경험을 했다. PISA 2012의 기술 리포트에 설명된 대로 원천 데이터를 가공하는 연습이었다. 크게 2가지를 살펴봤다. 1) 학생의 사회경제적 지위(가구 소득, 부모의 교육 수준, 국가 등)이 수학 능력과 어떤 관계가 있는지 2) 일주일에 수학수업이 몇 시간이어야 수학능력을 향상시키는데 도움이 되는지를 살펴봤었다. 첫번째의 경우는 국가별 학생을 통틀어 수학점수의 통계를 내야하고, 두번째의 경우는 수업시간이 학교별로 다르기 때문에 학교별로 수학점수의 통계를 내야 한다고 생각한다. 기술 리포트 내용대로 최대한 따라했는데, 최종 보고서에 실린 통계표와 똑같은 값을 얻진 못했다. 내가 뭔가를 빠뜨렸던듯..

책의 앞부분만 읽었는데, 조만간 시간을 내서 남은 부분도 읽어봐야겠다.

comments powered by Disqus