ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • single cell - spatial transcription analysis
    Bio-info/analysis 2023. 3. 29. 22:58

       이전에는 Bulk RNA sequencing 으로 여러 cell을 다 갈아서 그의 '평균이 되는' gene expression level을 확인하였다.

    하지만 생각해보면 cell-type specific하게 gene expression level도 다를 것이다. 특정 type의 cell에서 월등히 많이 발현되는 gene도 있을 것이고.. 이러한 세포 유형별 차이를 반영하지 못하는 단점이 있기 때문에 single cell rna seq이 필요하게 되었다.

    개념은 'single cell'을 떼어내어 cell 각각에서의 유전자 발현 수준을 확인하는 것. 이렇게 되면 cell 유형 별로의 유전자 발현 패턴도 확인 가능해진다. 문제는 single cell로 분리하면서 각 세포의 spatial한 data를 잃어버린다는 점이다. A와 B cell은 같은 type이 아니더라도 공간상으로 옆에 붙어있을 수 있는데 - 인접하기 때문에 두 cell 간의 correlation도 존재할 것이고 - 이러한 정보들이 떨어져 나가 각각의 cell이 되어버리면서 공간상의 위치가 고려되지 않게 된다. 따라서 spatial analysis를 통해 공간 정보를 부여해 주게 된다는 개념이다.

    (→ SRT : spatially resolved transcriptomics)

     

    • Single cell analysis의 장점들

    첫째로, cell type별로 clustering이 가능하다. 그러나 사실 이는 bulk sequencing을 하고 cell type에 특이적으로 발현하는 marker를 이용하여 진행하거나, flow cytometry를 이용해서도 clustering을 수행할 수 있다. 하지만 sc seq을 하게 되면 더 많은 sub-clustering이 가능케 된다. Cell 각각에 대한 발현 패턴 정보를 가지고 있기 때문에 1차적으로 clustering이 된 group 내에 들어가서도 더욱 소분류를 할 수 있다. 둘째로, 조건에 따라 달라지는 dynamic cell state를 자세하게 파악할 수 있다. 예를 들어, mouse endothelial cells에서 정상적으로 발현되는 유전자 패턴과 Gimap5 유전자가 homozygous deletion 되었을 때에 발현되는 유전자 패턴의 차이를 알아낼 수 있다. 조건에 따라 달라지는 gene expression pattern의 차이를 특정한 세포 종류와 같이 cell level 수준에서 비교해 볼 수 있다는 것이 큰 장점이 된다. 이 때의 표현형의 차이가 있다면 (→portal hypertension) 특정 유전자의 KD이 특정 cell type의 gene expression level을 변화시켜 질병 상태를 유도했을 것이라는 기전까지 유추할 수 있다. 셋째로, 특정 cell 내에서 강하게 연관성이 있는 genes의 관계를 확인할 수 있다. 예를 들어, pain-sensing neurons에서만 독특하게 관찰되는 여러 유전자의 상호작용이 있다면 (Grp83-Trpm8), 두 유전자의 공통발현과 같은 상호작용이 뇌세포의 고통 감지와 관련하여 중요한 역할을 한다고 생각할 수 있을 것이다. 넷째로, differentiation과 같은 과정에서 cell의 다음 states를 trajectory를 통해 예측할 수 있다. single cell analysis에서 가장 활발히 활용되는 방법론으로, single cell transcript의 mRNA spliced/unspliced 비율을 계산하여 각각의 cell의 state를 snapshots으로 캡쳐하게 되면 이를 이용하여 특정 cell의 다음 state는 무엇일지 예상해볼 수 있을 것이다. 각각의 cell이 얼마나 mature한 단계에 존재하는지를 nascent mRNA와 mature mRNA 수준을 가지고 확인한 후 여러 state에 존재하는 cell들이 그리는 trajectory를 따라서 다음 단계가 예측 가능하다. (ex. Neurogenesis) scSeq은 Heterogenous 한 tissue에 대한 분석을 가능케 하고, rare한 cell type (숫자가 적어서 bulk에서는 무시됨)에 대한 분석도 진행할 수 있게 해 준다.

     

    • Single cell analysis의 방법론

       기본적으로는 single cell isolation을 진행하여 rna release를 시키고, cDNA library를 제작하여 pcr - sequencing 과정을 거친다고 보면 된다. 이 single cell isolation 기술이 많이 발전했는데, 15년 가량의 역사 (2009~)를 가지고 있으며 초기 manual 하게 single cell을 분리하여 진행하는 방식부터 터 FACS (fluorescence activated cell sorting)과 같이 세포를 staining한 후의 형광표지자를 이용해 laser beam을 쏴서 cell sorting을 진행하는 방식, LCM (laser capture microdissection)과 같이 laser로 뜯어내는 방식도 등장하였다.

       2017년 Drop-seq이라고 불리는 microfluidic droplet-based cell isolation이 가능해지면서 scSeq의 자동화가 game-changer를 이끌었다. 10x 사의 방식을 예로 들어 설명하자면, barcode oligomer가 촘촘히 박힌 gel bead와 + cells이 fluid내에서 하나의 drop에 capture되어 분리된 single-cell GEMs이 만들어지는 방식으로 이루어진다. 각각의 barcode oligomer에는  cell type을 구별할 수 있는 10x barcode와, pcr 증폭 이후 bias를 막기 위해 원 molecule의 개수를 확인하기 위해 필요(종류를 셈)한 UMI part, mRNA의 poly A를 capture하여 hybrization을 진행하기 위한 polyDT part가 포함되어 있다. 얻어진 single-cell GEMs 내에서 cell lysis가 일어난 이후, mRNA hybrized on bead을 거쳐 cDNA library 생성이 일어나고 이를 통해 pcr 과정을 거쳐서 scSeq expression data를 얻게 된다. 이 과정이 동시에 자동적으로 일어나는 효율적 시스템을 갖추었기 때문에 쉽게 데이터 생산과 분석이 가능해져서 실험 비용 감소 - 관련 연구 증가에 기여하게 되었다.

     

     

    • Single Cell에 공간 정보를 부여하는 - SRT (Spatially Resolved Transcriptomics)의 여러 방법론들

    크게는 (1) Image-based method(2) Capture-based method로 구별할 수 있다.

    (1)은 ISS (in situ sequencing)과 ISH (in situ hybridization)의 방식이 존재한다. 미리 관심있는 gene set이 있을 때 사용하는 방식인데, designed된 probe 혹은 barcoded mRNA을 hybridization 시키면, 그 결과를 현미경으로 확인하고 발현 패턴을 확인하는 식이다. IHC의 항원-항체 간 특이적인 결합 반응처럼 이루어진다. 높은 resolution을 갖고(single cell 수준), sub-cellular level에서의 expression pattern을 관찰할 수 있다. 하지만 수백 개 유전자만의 발현 패턴을 확인할 수 있어서 throughput이 낮다는 단점이 존재한다.

     

    (2)는 세 가지 타입으로 분류가 가능하다.  LCM : tissue microdissection / mRNA-capturing probe 가 존재하는 micropic slides(혹은 beads)를 이용하여 조직의 mRNA와 probe를 상보적으로 결합시키는 in situ hybridization을 진행. 이런 방식들로 cDNA library를 prep 이후에 ex-situ에서 sequencing을 수행하는 방식이다. (1)에 비해서 많은 종류의 유전자에 대한 expression pattern을 분석이 가능하고 throughput의 제한이 없다는 장점이 있지만, single cell cature의 보장이 없기 때문에 resolution은 낮다.

     

    **구체적으로는 5가지의 techniques 이 있다

    1. Microdissection-based technology

      : tissue sectioning → staining → Laser로 관심 부분을 microdissection하여 capture → barcode가 있는 well에서 sequencing

      : 기술 ) LCM (Laser Capture Microdissection), Tomo-seq, TIVA, Niche-seq

    2. in situ hybridization-based technology

      : 'priori'하게 defined target에 대한 labeled probe와 + target transcript와의 hybridization을 형광 이미지 데이터를 분석

      : 기술 ) MERFISH, smFISH, seqFISH, seqFISH+, osmFISH, RNA Scope, DNA microscopy

    3. in situ sequencing-based technology

      : 공간 상에 위치한 transcript에 대해서 그대로 sequencing한 후, 그 image data를 분석

      : 기술 ) STARmap, ISS/Cartana, BaristaSeq, FISSEQ

    4. in silico reconstruction technology

       : tissue isolation을 진행해 scRNA-seq을 한 이후에, cell마다의 marker genes의 발현 패턴을 확인,

        기존에 공개된 single cell Data와 비교하여 공간상의 structure를 추론하고 → reconstruct 하는 방법론

       : 기본 전제는, 공간상으로 비슷한 위치에 존재하는 세포는 비슷한 전사체 패턴을 공유한다는 것이다

       : 기술) novoSpaRc, CSOmap, Seurat v3

    5. in situ capture-based technologies

       : in situ에서 slides나 beads를 이용한 transcript를 capture한 이후에 (cDNA prep) -> ex situe에서 sequencing을 진행

       : 최근 들어 많이 사용하는 방식

       : probe가 필요하지 않고, capture-sequencing되는 모든 transcript에 대해 systemic/unbiased 한 분석이 가능함 

       : 기술) Visium, ST(Spatial Transcriptomics), Slide-seq, HDST, GeoMX, APEX-Seq, Stereo-Seq

     

     10x Visium에서 개발한 in situ capture-based STR

    Visium의 spatial gene expression slide에는 4개의 arrays가 존재하고, array는 6.5mm의 폭의 정사각형 크기로 이에 관심있는 sample의 조직을 mount할 수 있다. 관심 sample의 section을 mount하게 되면 array에 존재하는 약 5000개의 spots (oligomer가 박혀 있음; 55um의 지름- spot의 중심들 간 거리는 100um) 내로 조직의 세포들이 들어가 lysis를 일으키고 mRNA release가 된다. 이를 ex-situ library에서 sequencing하게 되면, 우리는 각 spot의 위치정보를 가지고 있기 때문에 spatial resolution이 가능한 것이다.

     

    1세대 in situ capture의 방법론은 ST (각 spot의 지름이 100um) 이었는데, Visium에서 이를 개선하여 55um의 spot 지름을 가져 1~10개의 세포가 capture될 수 있는 수준으로 발전시켰으나 아직 image-based에 비해 낮은 해상도를 지녔다고 볼 수 있다. 이를 획기적으로 개선하여 4um의 spot 지름을 가진 Visium HD를 개발 중이나 아직 상용화되지 않았음

     

     

    •  공간전사체 데이터를 분석하는 방법론들 (Computational data analysis methodology for SRT)

    언어별 분류

    > R-based tool : Seurat, STUtility(extended spatial function for Seurat), Giotto(greater variety of built-in tools for spatial analysis), SpatialExperiment

    > Python-based tool : scanpy, squidpy(extended spatial function for scanpy), stLearn(integrated spatial distance, tissue morphology and gene expression from spatial data)

     

     

    활용에 따른 분류

    1) Single-cell inspired method :  single cell data 분석 기법을 그대로 spatial data에 적용

       ex) BayesSpace : 기존의 pathological annotation이 된 H&E image위에, spot을 single cell로 가정하고 spatial mapping후 cluster 진행 .. bayesan modeling을 통해 spatial mapping의 enhancement

    2) Integration with single-cell data : in situ capture 기반 실험 테크닉의 낮은 resolution을 통합분석을 통해 보완

    활용 시 사용가능한 method

    a. Marker gene: 각각의 cell type으로부터 marker genes을 추출 → spatial locations에 따라 각각의 marker gene set의 enrichment score를 계산

    b. Anchor :

    c. Probabilistic Model : 유전자 발현 패턴이 특정한 통계적 분포를 따른다는 가정 하에, single cell data로부터 cell type parameters를 학습하고 spatial data에 deconvolve

     - Stereoscope, RCTD, cell2location

    d. Optimization: each cell이 가장 'likely to reside'한 spatial location을 찾기

     

    RCTD (Robust Cell Type Decomposition)

    -spatial transcriptome의 cell type을 추정하는 확률모델을, labeled single-cell RNA seq reference에 기반하여 제작함

    -MLE (maximum likelihood estimation)을 사용하여 각각의 spatial transcriptomics spot에 위치하는 cell type을 알아냄

     : data set에 대한 확률모델을 설정하고 - 주어진 데이터 셋 관측 확률을 최대화하는 theta 값 찾는 방식

    -spatial transcriptomics에 존재하는 cell type mixture에 대한 robust decomposition

     > spot 각각별로 gene expression level 수준에 따라 cell type을 분류하는 확률모델을 reference에 기반하여 제작하고

    -> 가장 높은 확률로 고고

     

    Tangrame

    - scRNA-seq profile을 랜덤으로 섞은 후, mapped cells의 deg 발현 정도와 - spatial data의 발현 정도를 비교

     > stochastic gradient descent를 이용하여 optimal cell mapping을 찾기

     

    3) Spatially aware methods

    - SVG란, 위치 정보와 gene expression pattern이 높은 상관관계를 보이는 유전자들을 말한다. - 공간 정보가 바뀌면 발현수준도 크게 차이나는 유전자들 ~ Moran's I나 Geary's C를 이용하여 통계적으로 rank genes을 뽑아낼 수 있다

    - SpatialDE, SVCA, SPARK

    - SVG를 shuffle 시켜서 동일한 유전자들의 발현 패턴이 어떻게 달라지는지를 확인할 수 있다

    - 이는 spatial domatin patterns를 찾는데도 활용

     

    출처

    - KSBi-BIML 2023 생물정보학 & 머신러닝 워크샵 

    https://www.researchgate.net/figure/Schematic-overview-of-two-SRT-approaches-A-Image-based-methods-These-methods-contain_fig1_364512643

    - Duan, H., Cheng, T., & Cheng, H.  Spatially resolved transcriptomics: advances and applications. Blood science (Baltimore, Md.), 5(1), 1–14. (2022). https://doi.org/10.1097/BS9.0000000000000141

    - Zhu, J., Shang, L. & Zhou, X. SRTsim: spatial pattern preserving simulations for spatially resolved transcriptomics. Genome Biol 24, 39 (2023). https://doi.org/10.1186/s13059-023-02879-z

    - Lee, J., Yoo, M., & Choi, J. (2022). Recent advances in spatially resolved transcriptomics: challenges and opportunities. BMB reports, 55(3), 113–124. https://doi.org/10.5483/BMBRep.2022.55.3.014

     

     

    'Bio-info > analysis' 카테고리의 다른 글

    single cell analysis - after cell type annotation  (0) 2025.03.05
    single cell 분석 - cluster 개수 정하기  (0) 2025.03.05
    single-cell analysis  (0) 2025.03.05
    GSEA 분석  (0) 2023.03.10
Designed by Tistory.