[논문 초록 읽기 7] scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data
단일세포전사체 데이터의 세포 유형 주석을 위한 대규모 사전 훈련된 심층 언어 모델인 scBERT
단일 세포 전사체 (single cell RNA-seq) 데이터를 기반으로 세포 유형에 주석을 다는 것 (cell type annotation)은 질병 진행 (progress) 및 종양 미세 환경 (tumor microenvironment) 과 관련된 연구를 위해 필수적이다. 연구자들은 기존의 annotation 방법이 일반적으로 선별된 마커 유전자 목록의 부족, 배치 효과의 부적절한 처리, 잠재된 유전자-유전자 상호 작용 정보 활용의 어려움으로 인해 일반화 및 견고성 (robustness) 의 문제가 있다고 생각했다.
이 연구에서는 이러한 문제를 극복하기 위해 사전 훈련된 심층 신경망 기반 모델 (pre-trained neural network-based model) 인 scBERT (변환기의 단일 셀 양방향 인코더 표현)을 개발했다.사전 훈련 및 미세 조정에 대한 BERT의 접근 방식에 따라, scBERT는 레이블이 지정되지 않은 대규모의 scRNA-seq 데이터에 대한 사전 훈련을 통해 유전자-유전자 상호 작용에 대한 일반적인 이해를 얻는다. 이후, unseen & user-specific한 scRNA-seq 데이터의 세포 유형 주석 작업으로 transfer 되어 감독된 (supervised) 미세 조정 (fine tuning)이 수행된다. (unlabeled 데이터가 아닌가? 어떻게 supervised fine tuning이지?)
광범위하고 엄격한 벤치마크 연구를 통해 세포 유형 주석, 새로운 세포 유형 발견, 배치 효과에 대한 견고성 및 모델 해석 가능성에 대한 scBERT의 탁월한 성능이 검증되었다.