2012/04/06 21:50

자료 바로읽기 - 통계 (1) 논리와사고

 안녕하세요 커티군입니다.

 글이 안써진다고 징징댄게 엊그제인데, 이렇게 글을 쓰고 있자니 기분이 묘합니다. 그래도 통계 이야기가 이글루에 잠시 나온 김에 '이건 꼭 써봐야겠다' 싶었던 아주 간단하고 재미진 통계 이야기를 적어보려 합니다.



 자료 바로읽기 - 통계 (1)

 통계는 그 의미를 제대로 파악하기 힘듭니다. 대학교 교수님들 중에서도 통계를 명쾌하게 강의할 수 있는 분이 학과당 몇분 안된다고 하네요. 일단 통계의 확률이 명확하게 무엇을 의미하는지도 수학자&철학자들 사이에서 의견이 분분합니다.

 확률의 의미가 어떻게 갈리냐면... 저도 깊이 이해하지 못했기에 수업 시간에 교수님이 해 주신 말씀을 기억에 의존하여 그대로 옮겨보겠습니다.





 "동전을 던졌을 때 앞면, 뒷면이 나오는 확률이 1/2라고 합니다. 그런게 그 확률이 실제로 자연에 존재하는 확률일까요? 
자연에 1/2이라는 확률이 존재해서 동전이 그 확률에 맞춰서 앞, 뒷면이 나오는걸까요? 
아니면 1/2이라는 확률은 그저 인간의 머릿속에서 나온 개념인걸까요? 

결국 확률은 자연적으로 존재하는 개념입니까, 아니면 인간의 머릿속에만 존재하는 개념입니까?"





 저도 이게 뭔 소리인지 잘 이해할 수 없습니다만, 실제로 이 내용을 싸우고 수학자&철학자들이 신명나게 토론을 벌인다고 하니 뭔가 다르긴 다른 모양입니다. 일단 이 내용은 여기까지 하고 넘어가도록 하죠.


 일상 생활에서 통계의 의미를 제대로 파악하기 힘든 이유는, 통계가 인간의 직관과 어긋나는 뜻을 내포하는 경우가 많기 때문입니다. 간단한 예시를 보시겠습니다. 




 흡연자들에게 담배의 유해성을 알리는 전형적인 문구 중 하나입니다.



 "흡연은 암, 심장질환, 폐기종을 유발하며, 임신을 더 어렵게 할 수 있습니다"



 잠시 이러한 경고 문구가 없던 시절로 돌아가보도록 하지요. 한때는 담배와 폐암에 아무런 인과관계(상관관계 말고!)가 없다고 믿었던 시절이 있었습니다. 담배회사들은 흡연과 폐암의 발병률이 단순한 상관관계에 있으므로 흡연이 폐암을 일으킨다는 사실은 과학적으로 옳지 않다, 따라서 우리는 폐암 환자들에게 보상금을 지불할 수 없다고 주장했습니다.

 그러나 수십여년에 걸쳐 데이터를 수집한 결과, 통계적으로 담배와 폐암 사이에는 유의미한 인과관계가 있다는 사실이 밝혀졌습니다. "흡연이 폐암을 유발한다"는 주장을 증명하기 위해서 정말 오랜 시간이 걸렸으며, 통계적인 기법이 큰 힘을 실어주었습니다.


 그렇다면 위 경구문이 의미하는 진짜 통계적 의미는 무엇일까요?





Q.담배가 폐암을 유발한다는 주장과 동일한 주장은?


1. 담배를 피는 사람은 폐암에 걸린다.

2. 담배를 피는 사람은 담배를 피지 않는 사람보다 폐암에 걸릴 확률이 높다.

3. 담배를 피는 사람은 담배를 피지 않았을 때보다 폐암에 걸릴 확률이 높다.

 



 흡연자를 욕할 때는 1번을, 금연을 권장할 때는 2번을, 흡연을 할 때는 3번으로 생각할 것 같지 않나요? 일반적으로 사람들은 2번이 정답이라고 생각하고 있습니다.


 정답은 3번입니다. 담배를 피는 사람은 담배를 피지 않았을 때보다 폐암에 걸릴 확률이 '유의미하게' 높아집니다. 이것이 '담배가 폐암을 유발한다'는 문구가 실제 의미입니다. 

 어떤 사람이 담배를 많이 폈음에도 불구하고 폐암에 걸리지 않았다면, 그 사람은 위 문구의 영향을 받지 않는 예외적인 케이스일까요? 아닙니다. 그 사람에게도 위 문구가 동일하게 적용됩니다. 왜냐하면 담배를 펴도 폐암에 걸릴 확률이 10%밖에 되지 않아서 폐암이 발병하지 않았다고 해도, 담배를 피지 않았다면 폐암에 걸릴 확률이 10%보다 낮았을 것이기 때문입니다. 즉, 흡연은 개개인의 폐암 발병 확률에 플러스를 해 준다는 것이지요. 바로 이것이 위 문구가 말하고자 하는 진짜 의미입니다.


 이렇듯 통계는 내용을 조작하기 쉬울 뿐만 아니라, 의미를 조작하기도 매우 쉽습니다. 예전에 올렸던 전쟁보다 고속도로가 위험하다? - 통계의 함정 에서는 통계를 작성하는 사람이 통계가 내포하는 의미를 쉽게 조작할 수 있다는 점을 이야기했었지요. 이번의 경우는 통계를 받아들이는 사람이 그 의미를 혼동하는 경우가 되겠습니다. 

 교수님의 말씀을 믿는다면, 통계 결과를 분석하는 기자들 중의 대다수가 그 의미를 제대로 파악하지 못한다고 합니다. 통계를 배운 사람들도 파악하기 어려운데, 그렇지 못한 사람들은 훨씬 실수가 잦다는군요. 게다가 독자가 통계를 오독하는 경우도 고려해야 합니다. 

 참 무서운 세상입니다 ㅡㅡㅋ

덧글

  • 2012/04/06 22:08 # 답글 비공개

    비공개 덧글입니다.
  • 커티군 2012/04/06 23:48 #

    Aㅏ...컴퓨터로 ANOVA 를 할 때 만큼은 정말 신나고 재밌었죠... 종이로 돌아오는 순간 헬이었지만ㅜㅜ
  • 271828 2012/04/06 23:19 # 답글

    x/y축 타이틀 숨기기, 스케일 바꿔놓기 등 다양한 기법이 있더군요. 글 잘보고 갑니다 ^^
  • 커티군 2012/04/06 23:49 #

    가끔씩은 초등학생이 봐도 알아챌만한 기법을 사용하기도 하더라고요. 감사합니다 ^^
  • 2012/04/25 16:40 # 삭제 답글 비공개

    비공개 덧글입니다.
댓글 입력 영역