Red flag on open access to the aggregate genomic data

지놈 데이터 자체의 완전 공개의 문제점 (DNA를 통해 개인을 역추적할 수 있다는 점) 은 익히 잘 알려진 것이고 그에 대한 보호장치가 작동하고 있다. 그 보호장치란 적절한 승인 절차를 통해 허가받은 사람들만 데이터를 다룰 수 있게 하는 것이다. 허가는 데이터 유출을 최대한 방지하는 시스템을 갖춘 사람들에게만 주어진다. 그러나 Aggregate genomic data 즉 일차 데이터가 아닌 그 데이터를 분석한 결과들: 주로 SNP의 p-value들, MAF (Minor Allele Frequency)등 개인레벨의 정보가 아닌 집합적인 레밸의 데이터는 연구 주체들이 데이터를 공개할 의향이 있는 경우 퍼블릭 데이터베이스를 통해 특별한 승인 절차 없이 공개해왔다. 심지어 NIH는 Genomic 연구가 보다 활발하게 이루어지도록 이런식의 데이터 공유를 권장하고 퍼블릭 데이터베이스들을 운영해왔으며, NIH의 펀딩을 받은 모든 Genomic 연구의 데이터나 결과를 오픈하기로 방침을 정했다.

그런데 9월 4일자 Science Express Letter : Protecting Aggregate Genomic Data  는 Aggregate genomic data에 대한 일반 공개(open access)를 취소한다는 내용을 담고 있다. 그 이유는 최근 Plos Genetics 8월호 (Volume 4, issue 8) 에 실린 Homer et al. 의 논문 때문이다. 이 논문의 연구자들은 UCLA의 Forensic Genetics계열의 연구자들로, 이들이 애초에 풀려던 문제는 Mixture DNA 즉, 여러 사람의 DNA가 섞여진 샘플의 DNA분석 결과를 가지고 어떤 특정인의 DNA가 그 안에 포함되어 있는지를 찾아는 문제였다. 즉 범죄 현장에서 구한 샘플에 여러명의 DNA가 섞여 있을 경우 특정인의 DNA를 구별해 내기는 아주 어려운데, 특히 SNP (Single nucleotide polymorphism : binary genetic markers) 정보를 가지고는 불가능하다고 여겨져 왔다. Homer et al. 은 SNP을 이용해서 특정인이 Mixture DNA sample에 속해 있는지를 비교적 정확하게 예측해 내는 통계적 방법을 발견했다. 그 방법은 개인의 MAF (0, 0.5, 1의 세가지 값을 가지는)를 가지고 reference population의 MAF와 mixture sample의 MAF사이의 거리를 이용한 수치를 각 SNP마다 구한 후 모든 SNP에 대해 집적된 값을 구하여 mixture sample에 얼마나 가까운지를 계량하는 것이다.

그런데 범죄의 증거를 도출하기 위한 이 연구의 내용이 aggregate genomic data의 경우에도 똑같이 이용될 수가 있음을 보여준 셈이 되었다. 즉, 누군가 어떤 특정인의 DNA정보를 입수했다면, 그 개인이 어떤 공개된 연구에 참가 했는가 아닌가 하는 정보를 알아낼 수 있다는 것이다. 이런 이유로 NIH는 aggregate genomic data의 일반 공개 방침을 일단 임시적으로 철회하고 앞으로 좀더 확실한 방침을 정할때까지 비공개로 돌려 버렸다.

어찌보면 누가 무슨 의학 연구에 참가 했다는 점이 뭐 대단한 개인정보인가 싶지만, 예를 들어 어떤 사람이 HIV에 걸렸는지를 이 방법을 통해 알아낼 수도 있다는 사례를 생각해 보면 결국 이는 적절한 조치이다. HIV의 감염 여부는 철저한 비밀로 유지되고 있는데 HIV 감염자 자체가 그리 많지 않아서 관련 연구에 참여하는 사람의 비율이 많은 편이다. 이런 경우엔, 그야말로 손쉽게 누군가의 질병여부를 알아낼수 있는 가능성이 생겨버리는 것이다. 

물론 이 뉴스는 과학자들에겐 상당한 불편함을 초래할 것이다.  원본 지놈 데이터를 복잡한 절차를 통해 받아 본 경험이 있는데, 참여자 십여명이 모두 몇시간씩 걸리는 교육 프로그램을 이수해야 하고 그 데이터를 보호하기 위해 인력을 들여서 환경을 마련한 후 수십장의 신청서을 제출하면 다시 몇 주가 지나야 허가가 나왔다. 그와 반대로 aggregate data의 경우엔 얼마전에 일반 공개되어 있는 데이터를 클릭 몇번에 다운 받기도 하고, 혹은 연구자에게 연락해서 간단한 양식만 사인한 후 이메일로 손쉽게 데이터를 받았는데 이제 그런 식으로 하지 못한다는 뜻이 된다.

최근 지놈 연구 논문들 중 이런 공유된 데이타를 가지고 이루어진 메타 분석이나 혹은 자신들의 연구에 메타분석를 병행하는 경우가 많은데 앞으로도 그런 트랜드가 유지될 지 지켜볼 일이다.

by Rudy | 2008/09/07 00:54 | 왜냐면 | 트랙백 | 덧글(0)
◀ 이전 페이지 다음 페이지 ▶



글그림
by Rudy
Calendar
카테고리
Pictorama
왜냐면
About Rudy
메뉴릿
최근 등록된 덧글
레오펠릭스// 읽어주셔서..
by Rudy at 07/09
굉장히 흥미롭게 봤습니다..
by 레오펠릭스 at 07/08
통제할 장치가 없다는 사..
by Rudy at 06/23
걱정하시는 것처럼 직접..
by Jeff at 06/22
jeff// 땡큐요~
by Rudy at 05/11
잘 읽고 있습니다 ^^
by jeff at 05/11
ellouin// 3편까지 있을 ..
by Rudy at 05/11
링크신고합니다.^^
by ellouin at 05/11
jeff// 다음 편도 곧 쓸..
by Rudy at 05/08
다음 편 기대합니다.
by jeff at 05/08
최근 등록된 트랙백
직접민주주의 헌법이론 -..
by 살아가기
직접민주주의 헌법이론
by 살아가기
직접민주주의 헌법이론
by 살아가기
rss

skin by zodiac47