`[WGCNA] 유전자 군집화`에 이어지는 내용입니다.
Driver (핵심) 유전자
Driver 유전자는 다른 유전자의 발현이나 기능에 영향을 미치며, 특정 형질과 관련된 요인들과 연관되어 있습니다. 우리는 허브 유전자로서 특정 형질과 가장 강하게 상관관계를 보이는 driver 유전자를 식별할 수 있습니다.
Hub 유전자
- 가장 높은 모듈 내 연결성을 가진 유전자: 모듈 내 엣지 가중치의 합이 가장 높은 유전자.
- 가장 높은 모듈 멤버십을 가진 유전자: 유전자가 모듈 eigengene과의 상관관계가 가장 높은 유전자.
모듈 품질 평가
올바른 분석 또는 추가 분석을 위해 모듈의 전반적인 품질을 평가합니다.
모듈 크기
- 너무 큰 경우
- 생물학적으로 의미가 있지만 다루기 어려울 수 있습니다.
- 너무 작은 경우
- 병합 수준이 충분하지 않습니다.
통계적 검정을 사용하여 네트워크를 무작위 클러스터링된 네트워크와 비교할 수 있습니다.
연결성
- 평균 모듈 내 연결성
- 모듈 내 연결성 / 전체 연결성의 평균 비율
형질 상관관계
- 모듈 `eigengene`과 관심 있는 형질 사이의 강한 상관관계
- 유전자 모듈 멤버십과 유전자-형질 상관관계 사이의 강한 상관관계
기능적 풍부도
- 같은 모듈 내에 많은 기능적으로 관련된 유전자
- 부트스트랩 또는 순열 검정을 적용하여 p-value를 얻을 수 있습니다.
주의사항
- 정규화된 데이터를 사용해야 합니다.
- 기본적인 계층적 클러스터링이 적용되지만, 이것이 항상 최선의 방법은 아닙니다.
- 문헌과 달리, 무방향 그래프 구조만 사용됩니다.
- 핵심 유전자는 반드시 인과 관계를 나타내는 것은 아닙니다.
References
WGCNA: an R package for weighted correlation network analysis - BMC Bioinformatics
Tutorials for WGCNA R package “Blockwise” network analysis of large data
Outro
본문의 내용은 상당히 직관적으로, 계산과 기초통계를 중심으로 gene과 그 network에 대해 컴퓨터가 인식할 수 있도록 직관적으로 잘 표현했습니다. 이런 semantic gap이 적은 방법론이 아무래도 해석하기 용이하다보니 과학자들, 특히 생물정보분야에서 선호하는 것 같습니다. 그래서 인지 피인용수가 현재 15K가 넘어갑니다. 제법 직관적인 방법론이다보니, 이해하기에 재미도 있었고, 크게 어렵지는 않았습니다. 다만 마지막 계층적 군집화의 대안으로, 저자가 구현한 Dynamic tree cut 알고리즘을 원활히 이해하기 어려웠습니다. 감사하게도 저자중 한분인 Peter Langfelder 님이 내 질문이 담긴 메일에 답변을 잘 해주셔서 어느정도 이해가 되었습니다. 하지만, 아직까지 뭔가 찝찝하네요... 해당 알고리즘에대한 확신이 내게는 없어서인듯 합니다.
그리고 다시봐도 필요에 따라 새로운 방법론을 만들고, 논문으로 출판하고... 엄청난 열정인것 같습니다.
혹시 잘못 정리한 내용이나, 빠진 부분있다면 댓글로 알려주세요! 감사합니다~
'통계 & 머신러닝 > 군집화' 카테고리의 다른 글
Linear Discriminant Analysis (2) | 2024.11.27 |
---|---|
[WGCNA] 유전자 군집화 (0) | 2024.08.19 |
[WGCNA] 유사도 네트워크 계산 (0) | 2024.08.14 |
[WGCNA] 기본 개념 (0) | 2024.08.14 |