Note
-
anndata의 값이 raw cnt인지 확인하는 법Note 2025. 3. 6. 17:51
AnnData X가 log1p 변환되지 않은 raw count인지 확인하는 방법1. 최소값 확인log1p 변환이 된 데이터는 최소값이 0 이상입니다.하지만 raw count 데이터는 0 또는 자연수(정수) 값이므로, 최소값이 0 이하인지 확인하면 됩니다.import numpy as npmin_value = np.min(adata.X)print(f"Minimum value in X: {min_value}")결과 해석min_value >= 0: log1p 변환되었을 가능성이 높음.min_value min_value == 0: 아직 raw count일 가능성이 있음.2. 정수값 여부 확인raw count 데이터는 항상 정수값을 가집니다.반면 log1p 변환된 데이터는 대부분 소수점 값을 포함합니다.is_int..
-
NVIDIA driver, CUDA, torchNote 2025. 3. 5. 13:59
기본 개념1 ) Base에 설치된 CUDA 버전을 확인 (nvcc --version) 하는 법- 시스템에 설치된 CUDA toolkit의 버전 정보→ 설치된 toolkit 버전은 PyTorch 실행과 직접적인 상관 없음 nvidia-smi 기본 개념1 ) GPU 머신을 이용하기 위해서는 torch와 cuda의 호환성이 중요함기본 개념2 ) 홈페이지(https://download.pytorch.org/whl/torch_stable.html )에서 원하는 version의 torch를 직접 다운받아서 설치 가능함 CUDA 버전 에러UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (f..
-
0203-0217Note 2025. 2. 17. 11:24
*Cosine similarity를 임베딩 간 유사성 비교에 사용하는 이유 - 크기 차이 무시, 방향 비교- Word2Vec, BERT, scRNA-seq ..등의 임베딩에서 코사인 유사도 사용해 벡터 간 의미적 유사성 비교- 고차원 공간에서 euclidean distance 보다 더 신뢰가능.. 고차원 공간에서는 모든 벡터들이 서로 떨어지기 때문에 유클리디안 거리가 큰 의미가.. 그러나 코사인 유사도는 차원이 증가해도 상대적으로 더 일관된 유사성 제공 *Dot Product(내적) : 두 벡터의 방향, 크기를 모두 고려하여 유사성 측정 *squeeze(dim=0)은 첫 번째 차원(0번 차원)이 크기 1인 경우 제거import torch# 3D 텐서 생성tensor = torch.rand(1, 3, 4)..
-
0120-0126Note 2025. 1. 20. 10:28
- 서버접속 bad port gateway error : 포트번호 틀렸을때 나는 errors- 가상환경 접속 문제 : .bashrc, commonR에서 자동으로 load하는 packages 의 문제일 가능성- single cell : TPM, FPKM 이 아닌 cnt를 사용함 (read depth가 낮아서) / bulk의 경우 cnt dataset 사용 (normalization된 TPM)- cellxgene의 .X : cnt dataset (.raw_X가 있을 경우) / 혹은 raw dataset일 수도 있음- scFoundation model은 전체 gene cnt에 대한 downsampling을 수행- bash 파일에서 사용자 입력 받기read -p "Enter GPU Device ID: " GPU..