분류 전체보기
-
scRank : drug-sensitive cell type inferenceBio-info/paper 2025. 11. 7. 01:17
2024.06 Cell Report Medicine 🔹 1. 연구 배경 (Background) 핵심 문제의식세포는 동일한 약물에도 불구하고 세포 아형(cell subtype) 에 따라 이질적인 반응을 보임.scRNA-seq 발전 : 질병에서 어떤 세포가 약물에 반응하는가 를 규명하는 것이 정밀의학의 핵심기존 접근법(예: DEG 수나 Augur 기반 separability 분석)은 전·후 처리 데이터(disease vs treatment pair) 가 필요약물의 표적(target) 정보를 반영하지 못함.핵심 가설 및 제안현실적으로는 “약물 처리되지 않은(scRNA-seq)” 질병 데이터가 풍부하므로, drug-responsive cell type을 untreated 데이터만으로 추론할 수 있는 방법이 필..
-
Pathway Ensemble Tool (PET)Bio-info/paper 2025. 11. 5. 00:32
24.08 Nature communication에 published된 논문 🔹 1. 연구 배경 (Background)질병 발병의 핵심은 pathway level dysregulation임.그러나 현재 대부분의 연구는 단일 유전자 중심 접근(single-gene focus) 또는 연구자가 미리 가정한 pathway만을 검증하는 가설 기반(hypothesis-driven) 방식임.GSEA, Enrichr, ORA 등 널리 쓰이는 pathway 분석 툴은 “특정 pathway가 enrichment 되어 있는지”를 검증하는 데는 유용하지만, 편향 없는(discovery-driven) 상황에서 실제 교란된 pathway를 1순위로 찾는 데에는 부정확함.기존 툴들의 성능은 주로 모의(simulated) 데이터나 ..
-
anndata의 값이 raw cnt인지 확인하는 법Note 2025. 3. 6. 17:51
AnnData X가 log1p 변환되지 않은 raw count인지 확인하는 방법1. 최소값 확인log1p 변환이 된 데이터는 최소값이 0 이상입니다.하지만 raw count 데이터는 0 또는 자연수(정수) 값이므로, 최소값이 0 이하인지 확인하면 됩니다.import numpy as npmin_value = np.min(adata.X)print(f"Minimum value in X: {min_value}")결과 해석min_value >= 0: log1p 변환되었을 가능성이 높음.min_value min_value == 0: 아직 raw count일 가능성이 있음.2. 정수값 여부 확인raw count 데이터는 항상 정수값을 가집니다.반면 log1p 변환된 데이터는 대부분 소수점 값을 포함합니다.is_int..
-
single cell analysis - after cell type annotationBio-info/analysis 2025. 3. 5. 21:58
📌 Single-cell 분석에서 Cell Type Annotation 이후에 할 수 있는 추가 분석들Cell type annotation 이후에는 세포의 특성과 기능을 더 깊이 이해하고, 특정 생물학적 질문에 답하기 위해 다양한 분석을 수행할 수 있어.1️⃣ 차등 발현 유전자(DEA, Differential Expression Analysis) 분석👉 각 세포 유형에서 특이적으로 발현되는 유전자 찾기목적: 세포 유형 간의 차이를 나타내는 특이적(marker) 유전자 찾기방법: scanpy.tl.rank_genes_groups(), Seurat::FindMarkers() 사용분석 예제:면역세포 vs. 종양세포에서 차등 발현되는 유전자 찾기특정 조건(예: 질병 vs. 정상)에서 발현 차이가 나는 유전자..
-
single cell 분석 - cluster 개수 정하기Bio-info/analysis 2025. 3. 5. 20:48
참고 : scanpy - preprocessing & clusteringhttps://scanpy.readthedocs.io/en/stable/tutorials/basics/clustering.html#manual-cell-type-annotationwritten by chatGPT 4o🔍 클러스터 개수를 정하는 가장 근거 있는 방법클러스터 개수(Optimal Number of Clusters)를 정하는 방법은 데이터의 구조와 분석 목적에 따라 다르지만, 일반적으로 다음과 같은 방법들이 신뢰할 수 있습니다.📌 1. 데이터 기반의 정량적 방법1️⃣ Elbow Method (엘보우 방법)클러스터 개수 k를 변화시키면서 클러스터 내 응집도(SSE, Within-cluster sum of squares, W..
-
NVIDIA driver, CUDA, torchNote 2025. 3. 5. 13:59
기본 개념1 ) Base에 설치된 CUDA 버전을 확인 (nvcc --version) 하는 법- 시스템에 설치된 CUDA toolkit의 버전 정보→ 설치된 toolkit 버전은 PyTorch 실행과 직접적인 상관 없음 nvidia-smi 기본 개념1 ) GPU 머신을 이용하기 위해서는 torch와 cuda의 호환성이 중요함기본 개념2 ) 홈페이지(https://download.pytorch.org/whl/torch_stable.html )에서 원하는 version의 torch를 직접 다운받아서 설치 가능함 CUDA 버전 에러UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (f..
-
single-cell analysisBio-info/analysis 2025. 3. 5. 13:39
- var index로 유전자 이름 설정->> anndata concat- nan 값을 0으로 변환 -> 나중에 count 셀 때 인식 가능- obs 인덱스 재설정 anndata.concatadata = anndata.concat(filtered_ann_list.values(), label='batch', join='outer') # var의 합집합 사용 (var_names 기준)-여러 개의 anndata 합침-row (cell) 단위로 stack 함-label : obs에 새로운 그룹 지정-index_unique : 중복 유전자 이름을 처리*var의 index로 유전자 이름이 들어가 있어야 함UserWarning: Observation names are not unique. To make ..
-
0203-0217Note 2025. 2. 17. 11:24
*Cosine similarity를 임베딩 간 유사성 비교에 사용하는 이유 - 크기 차이 무시, 방향 비교- Word2Vec, BERT, scRNA-seq ..등의 임베딩에서 코사인 유사도 사용해 벡터 간 의미적 유사성 비교- 고차원 공간에서 euclidean distance 보다 더 신뢰가능.. 고차원 공간에서는 모든 벡터들이 서로 떨어지기 때문에 유클리디안 거리가 큰 의미가.. 그러나 코사인 유사도는 차원이 증가해도 상대적으로 더 일관된 유사성 제공 *Dot Product(내적) : 두 벡터의 방향, 크기를 모두 고려하여 유사성 측정 *squeeze(dim=0)은 첫 번째 차원(0번 차원)이 크기 1인 경우 제거import torch# 3D 텐서 생성tensor = torch.rand(1, 3, 4)..