Genome in a Bottle Consortium(GIAB)은 종양-정상 샘플에 대한 최초의 공개 유전체 벤치마킹 데이터셋을 구축하고 이를 공개했습니다. 이번 프로젝트는 체세포 변이 탐지 기술의 성능을 검증하고, 연구자들이 새로운 분석 도구를 개발할 수 있도록 지원하는 데 목적이 있습니다.
GIAB는 미국 국립표준기술원(NIST)이 주도하는 컨소시엄으로, 그동안 건강한 개인의 유전체를 기반으로 한 참조 데이터셋 개발에 주력해 왔습니다. 이번에는 췌장암 진단을 받은 61세 유럽계 여성(HG008)의 종양 세포주와 해당 환자의 정상 조직 샘플을 분석해 공개 가능한 tumor-normal 데이터셋을 구성했습니다. 샘플은 매사추세츠 종합병원에서 채취하였으며, HG008 식별자로 명명되었습니다.
연구팀은 총 13종의 유전체 분석 기술을 동원해 데이터를 수집했습니다. 분석에는 Illumina, PacBio, Oxford Nanopore Technologies, Ultima Genomics 등 여러 시퀀싱 플랫폼이 활용됐으며, short-read 및 long-read PCR-free WGS, single cell WGS, Hi-C, optical genome mapping(OGM), 세포유전학 분석 등이 포함되었습니다. 각 기술은 해당 분야의 상용 플랫폼을 기반으로 수행되었고, 일부 기업은 데이터 생산에 직접 참여하기도 했습니다.
short-read WGS는 NovaSeq 6000, Aviti, Onso, UG100 등의 플랫폼에서 수행됐고, long-read WGS는 PacBio Revio와 ONT PromethION(표준 및 ultra-long read)을 통해 진행되었습니다. Hi-C 분석은 Phase Genomics와 Arima Genomics의 프로토콜을 통해 수행됐으며, single cell 분석은 BioSkryb Genomics의 ResolveDNA 키트를 이용해 Illumina 및 Ultima 플랫폼에서 진행되었습니다. Bionano Saphyr 시스템을 활용한 OGM과 함께, G-banding 및 DGH 방식의 세포유전학 분석도 병행되었습니다.
GIAB는 기술 간 성능 비교보다는 다양한 분석 기법을 조합해 고해상도의 신뢰성 있는 데이터를 생성하는 데 초점을 맞췄다고 밝혔습니다. 이 데이터는 암 유전체 분석 도구의 벤치마크 자료로 활용될 수 있도록, 누구나 접근 가능한 형태로 NCBI FTP와 SRA에 공개되었습니다.
뉴욕유전체센터(NYGC)의 계산생물학 부소장 Giuseppe Narzisi는 HG008이 “현재 전 세계에서 가장 정밀하게 특성화된 암 세포주일 것”이라며, 다양한 기술로 수집된 이 데이터셋이 향후 암 분석 도구 개발의 표준 기준(reference) 역할을 하게 될 것이라고 말했습니다. NYGC는 일부 Illumina 시퀀싱 데이터를 생산했고, 자사 개발 중인 somatic variant caller인 Lancet2를 활용해 variant calling을 수행했습니다.
GIAB는 이번에 구축한 암 데이터셋을 기반으로, 향후 somatic structural variant 벤치마크를 포함한 정제된 참조 세트를 추가적으로 공개할 계획입니다. 또한 두 번째 췌장암 환자의 tumor-normal 샘플에 대해서도 동일한 방식의 데이터 구축을 진행 중 입니다.
다만, 종양 세포주는 불멸화(immortalization)에 성공했지만, 정상 세포주는 아직 확립하지 못했습니다. 이에 따라 HG008의 정상 샘플은 제한된 자원이 될 수 있으며, 종양 조직 내 일부 정상 세포에서 세포주를 확립할 가능성도 검토 중입니다.
Zook은 “암 세포의 이질성(heterogeneity)과 지속적인 돌연변이 발생 특성으로 인해 somatic 변이 벤치마킹은 새로운 도전 과제를 안고 있다”고 말하면서도, 대량 세포 배양이나 single-cell cloning 등의 접근을 통해 해결 방안을 모색하고 있다고 밝혔습니다. “아직 완벽한 해답은 없지만, 가능한 한 정확한 기준을 제시하기 위해 노력하고 있습니다.”
GIAB의 이번 데이터셋은 암 유전체 분석에서 신뢰성과 재현성을 높이기 위한 중요한 첫걸음으로 평가받고 있으며, 다양한 기관 및 분석 툴 개발자들이 실제 연구와 도구 성능 평가에 즉시 활용할 수 있도록 설계되었습니다.
위의 연구와 관련 논문 링크 전달드리니, 자세한 사항은 아래 링크 참고부탁드립니다.
|