과학기사 무조건 맹신은 금물, 왜?

2020-03-25 08:34:00

똑같은 도구와 똑같은 방법으로 실험하면 누가 하든 똑같은 결과가 나와야 하는 게 과학이다. 그런데 최근 생명과학과 의학, 사회과학, 심리학에서 많은 실험이 재현되지 않아 문제가 되고 있다.

2014년에 학술지 《사이언스》와 《네이처》, 그리고 미국 국립보건원 주관으로 론문 심사와 출판에 관한 지침을 마련하는 행사가 열렸다. 생명과학과 의학에서 재현성 론난이 일었기 때문이다.

지침에 따르면 학술지는 연구자에게 해당 연구에 쓰인 통계가 정확한지를 확인하기 위해 어떻게 심사할 건지를 알려줘야 한다. 그리고 원고 분량에는 제한을 두지 말아야 한다. 분량이 정해져있으면 실험에 대해서 자세히 설명할 수 없어 자칫 실험을 재현하는 데 필요한 정보를 빠뜨릴 수 있기 때문이다. 또 누구라도 실험을 검증할 수 있도록 실험데이터를 공개할 수 있는 공간을 마련해야 한다. 대신 연구자는 실험에 대해 최대한 자세히 소개해야 한다.

대체 재현성 문제가 얼마나 심각하기에 이렇게까지 하는 걸가. 2012년 미국의 생명과학자 글렌 베글리가 《네이처》에 쓴 글을 보면 깜짝 놀랄 수밖에 없다. 2000년대 초반 10년간 발표된 암 관련 주요 연구 53건중에서 단 6개만이 재현에 성공했기 때문이다.

한편 2005년 미국 스탠포드대학 의학 교수 존은 의학연구의 대부분이 거짓이며 제대로 나온 결과도 그 효과가 과장됐다고 주장한 연구를 발표해 의학계에 파장을 일으켰다. 그 근거로 허술한 실험 설계와 지나치게 적은 실험대상을 꼬집았다. 이 론문은 지금까지 3600번 인용될 정도로 유명하다.

재현성 문제의 원인은 여러가지이다. 수십번 실험한 뒤 한번 성공한 것을 론문으로 썼을 수도 있고 의미 있는 결과를 내기 위해 입맛에 맞게 데이터를 변형했을 수도 있다. 그 중 연구자가 잘 몰라서 문제를 일으키는 원인이 있다. 바로 ‘P-value’이다.

연구자들은 실험이 얼마나 의미가 있는지 수치로 나타내기 위해서 통계를 사용한다. 사실 실험을 설명할 수 있는 통계적인 방법은 여러가지가 있다. 하지만 연구자들 모두가 통계전문가가 아니기 때문에 가장 쉬우면서도 유용한 방법을 써왔다. 그게 바로 ‘P-value’이다.

P-value를 구하기 위해서는 가장 먼저 ‘귀무가설’과 ‘대립가설’을 세워야 한다. 일반적으로 귀무가설은 연구에 의미가 없다는식의 가정이다. 반대로 대립가설은 연구에 의미가 있다는 가정이다. 그래서 연구자들은 귀무가설을 기각해 연구에 의미가 있다고 주장하고 싶어한다.

P-value는 귀무가설이 참이라는 가정 아래 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률이다. 대개 P-value가 0.05 이하로 매우 작으면 귀무가설을 기각한다. 하지만 이 값은 어디까지나 확률이기 때문에 100번중에 5번은 틀린다.

그렇다면 0.05에 특별한 의미가 있을가? 그건 아니다. P-value를 만든 영국의 통계학자 로널드 피셔가 다른 통계학자들과 정한 기준이다. 어차피 100% 확실한 방법은 없으니 적당한 수준에서 정한 것이다. 이 때문에 과학 연구에서 문제가 생기고 있다.

례를 들자면 어떤 유전자가 암을 일으키는지 알아내기 위해 유전자 10만개와 암의 련관성을 따진다. 문제는 5% 확률로 잘못된 결과를 내놓기 때문에 10만의 5%, 즉 5000개의 유전자가 암과의 련관성이 전혀 없으면서도 관련이 있다고 나오게 된다. 그래서 유전학자들은 0.05를 10만으로 나눈 값을 기준으로 삼자고 제안했다. 그렇게 하면 오류가 발생할 확률이 훨씬 더 작아지기 때문이다.

그런데 이렇게 했더니 암과 관련된 유전자라고 밝혀지는 게 하나도 없었다. 이 경우는 특정 유전자가 암과 관련성이 있는 데도 없다고 오류를 일으키는 것이다. 유전학자는 대개 막대한 비용을 투자받아서 연구하는데 연구 성과가 없으니 매우 난감하게 된다.

P-value가 0.02가 나왔다고 하면 사람들은 귀무가설을 지지하는 확률이 2%밖에 안 되니까 대립가설을 지지하는 확률이 98%나 된다고 생각한다. 즉 신약이 치료에 효과가 있을 확률이 98%라고 여기는 것이다.

하지만 이는 틀린 해석이다. P-value는 귀무가설이 옳다는 가정 아래 구한 값으로, 단지 실험데이터를 대표하는 통계량이 귀무가설과 매우 다르다는 것 뿐이다.

2016년 3월 7일 미국통계학회(이하 ASA)는 P-value를 제대로 알고 사용하자는 의미를 담은 성명서를 발표했다. 론 바서스타인 ASA 회장은 “P-value를 잘못 사용하는 사례가 많아지면서 통계학 전체를 의심하는 사람들이 많아지고 있다.”며 “P-value는 통계적으로 유용한 방법으로서 제대로 알고 사용하면 많은 문제를 해결할 수 있다.”고 밝혔다.

지금 당장 재현성 문제가 해결되지는 않을 것이다. 이미 2014년부터 저명한 학술지에서는 재현성 문제를 해결하기 위해 여러 지침을 만들어 운영하고 있지만 아직 이렇다 할 변화가 일어나고 있지는 않다. 작은 학술지에서는 이런 지침을 따르기가 쉽지 않기 때문이다. 실험데이터를 모두 공개하려면 이를 올릴 인터넷 공간이 필요한데 그러려면 비용이 많이 든다.

그러면 우리는 어떻게 해야 할가. ‘매일 통밀빵 20개 먹으면 암을 예방한다’, ‘아스피린, 하루 2알 먹으면 암을 예방한다’와 같은 기사를 본 적이 있을 것이다. 사실 통밀빵을 20개나 먹는 사람은 건강을 위해서 꾸준히 운동하고 몸에 해로운 음식을 먹지 않는 등 다른 노력을 했을 것이다. 또 통밀빵이 암을 예방하는 데 효과가 있다고 해도 효과는 미약할 수 있다. 따라서 P-value만 믿고 마치 통밀빵 20개만 먹으면 암을 예방할 수 있는 것처럼 이야기해서는 안된다. 연구결과를 볼 때 이런 문제점은 없는지 살펴봐야 한다. 연구가 과장되지는 않았는지, 이런 결과를 가져온 다른 리유가 있는 것은 아닌지 꼼꼼히 따져봐야 한다.


종합

  •  
  • 많이 본 기사
  • 종합
  • 스포츠
  • 경제
  • 사회

주소:중국 길림성 연길시 신화가 2호 (中国 吉林省 延吉市 新华街 2号)

신고 및 련락 전화번호: 0433-2513100  |   Email: webmaster@iybrb.com

互联网新闻信息服务许可证编号:22120180019

吉ICP备09000490号 | 吉新出网备字005号 | Copyright © 2007-2017

吉公网安备 22240102000014号