Bio-info/paper

[논문 초록 읽기 1] Population-level integration of single-cell datasets enables multi-scale analysis across samples

z_e 2024. 1. 11. 22:28

 

Population-level 의 single cell dataset의 통합은 샘플 간 multi-scale 분석을 가능하게 한다

 


<Abstract>

 

Population-level의 single-cell atlas가 점점 생겨나는 것은 sample의 metadata와 cellular data를 연결할 수 있는 잠재력을 보여준다. 이러한 references들을 구축하는 것은 varying metadata와 heterogeneous cohorts와의 통합을 요구한다.

 

따라서 이 논문에서는 scPoli (single-cell population level integration) 라는 open-world learner를 제시했다.

scPoli는, sample과 cell representations를 학습하는 generative model 로 data integration, label transfer, reference mapping을 수행할 수 있다.

 

연구자들은 scPoli를 lung과 peripheral blood mononuclear cells의 population-level atlases에 적용하였다.

(2,375 samples의 7.8 million cells로 구성됨)

 

그리고 scPoli가 sample-level의 biological, technical variations을 설명하는 것을 확인하였다.

(batch effects와 biological effects와 관련된 genes을 보여주는 sample embedding을 사용)

 

scPoli는 transposase가 접근가능 한 cromatin 및 cross-species datasets에 대한 single cell sequencing 분석에도 적용 가능하여 염색질 접근성 및 비교 유전체학에 대한 insight를 제공해준다.

 

따라서 연구자들은 scPoli를 사용하면 atlas 이용과, population 수준 단일 세포 데이터 통합을 수행하기에 편리할 것으로 예상함.

 


<Model 설명>

 

scPoli (single cell population level integration)

: Data integration, Label transfer, reference mapping을 위한 generative model

: 세포 및 샘플 embedding을 학습함으로 입력 데이터의 다양한 스케일의 표현 학습

: 모델의 weight를 fix하고 새로운 embedding을 학습 → 이전에 구축한 reference에 새로운 query를 빠르게 매핑 가능함

 

CVAEs (Conditional Variational Autoencoders)

-훈련된 데이터의 기저 분포를 학습하는 생성 모델

-데이터의 잠재 가변 분포를 매개변수화하는 인코더 네트워크 &

 샘플을 추출하고 데이터를 입력 공간으로 다시 매핑하는 디코더 네트워크

-scPoli의 구조적 기반은 CVAEs에 기반, 그러나 중요한 수정이 이루어짐

-표준 CVAE에서는 다양한 조건이 입력에 연결되는 고정된 OHE(One-Hot Encoding) 벡터로 표현되는 반면,

scPoli에서는 조건을 나타내기 위해 학습 가능한 임베딩 s 를 사용 → 이러한 임베딩은 고정된 차원 E 로 표현됨

-이 네트워크의 학습 목표는 표준 CVAE와 유사하지만, 학습 중에 s 임베딩은 모델의 매개변수로 백프로파게이션을 사용하여 최적화됨

-데이터의 각 레이블된 세포 유형에 대해 프로토타입 pk 이 초기화됨