[ML with JAX] Loss Function
·
통계 & 머신러닝/구현
`[ML with JAX] XOR 분류기`에 이어지는 내용입니다.`MLP(Multi-Layer Perceptron)`는 비선형 분류 문제를 해결할 수 있도록 해줍니다. 이는 결국 문제에 대해 적절한 `가중치`와 `바이어스(절편)`가 존재한다는 전제에서 출발합니다. 이전 포스팅에서 다룬 논리 연산 이진 분류 문제에서는 데이터의 위치가 명확했기 때문에 적당히 계산한 가중치로도 해결이 가능했습니다. 하지만 실생활 문제에서는 데이터도 가지가지 양상을 보이고 이러한 상황을 반영하는 가중치를 직접 계산하기 어렵기 때문에, 주어진 데이터를 바탕으로 결과를 예측하고, 오차를 확인한 뒤, 수정하는 과정을 반복하여 가장 적합한 가중치를 추정합니다.Loss function이 오차를 측정하기 위해 사용하는 것이 바로 `손실함..
[ML with JAX] XOR 분류기
·
통계 & 머신러닝/구현
이번 시리즈에서는 `JAX`의 문법을 정리하지는 않을예정입니다. `JAX`에 대해 정리해둔 내용은 아래의 내용을 확인해주세요!https://hello-world-jhyu95.tistory.com/entry/JAX-Quick-Start [JAX] Quick Start`JAX` 쓰는 법에 대해 공부하는 문서입니다. `JAX` 문서에서 제공하는 튜토리얼을 순서대로 공부(번역)해나갈 예정입니다. https://docs.jax.dev/en/latest/tutorials.htmlInstallationJAX는 NumPy와 같이 어레이 기반hello-world-jhyu95.tistory.com대신 알고리즘들에 대한 개인적인 복습도 할 겸 `JAX`로 기본적인 머신러닝 기법들을 돌려보는 작업을 해보려합니다.그런데 이번 ..
[머피 책] Chapter 2 #문제풀이
·
통계 & 머신러닝/스터디
푸는대로 올리는 중입니다, 틀린게 있음 알려주세요~예제 2.5몬티홀 문제닫혀 있는 문 3개 있고, 문 하나를 골라 그 문 뒤에 있는 것을 가져갈 수 있다. 하나의 문 뒤에만 상금이, 다른 두 문에는 아무것도 없다. 맨 처음 당신이 선택한 문은 열리지 않고, 정답을 알고있는 사회자가 아무것도 없는 문을 하나 선택하여 열어 보여준다. 여기서 당신은 선택을 유지할 수도, 바꿀 수 있다. 이 두가지 선택은 확률적으로 차이가 없을까?더보기`있다` 문 뒤에 당첨, 꽝1, 꽝2 이렇게 있다. i. 처음 당첨 문을 선택한 경우 $(\frac{1}{3})$유지하면 당첨: $\frac{1}{3}\times\frac{1}{2}=\frac{1}{6}$바꾸면 꽝: $\frac{1}{3}\times\frac{1}{2}=\frac..
[머피 책] Chapter 1 #2
·
통계 & 머신러닝/스터디
머피 책 공부하면서 새롭게 알게된 사실 또는 궁금한 부분에 대한 기록입니다.Voronoi Tessellation기하학에서 주어진 점 집합을 기반으로 공간을 분할하는 기법입니다. 머피 책에서 `knn` 알고리즘에서 $k=1$인 경우의 분류 방식이, 본질적으로 `Voronoi tessellation`으로 영역을 분할하는 방식과 같다고 합니다. 이러한 맥락으로 책에 등장한 개념인데, 먼저 `Voronoi tessellation`은 만드는 방법이 아주 간단합니다. 가장 가까운 두 점들을 모두 연결한 뒤, 그 선들을 수직 이등분하며 영역을 분할하는 방식입니다. 분할 된 영역에 새로운 데이터가 들어가면, 그 나뉘어진 영역을 차지하고 있는 그 점과 같은 클래스로 분류되며, 이는 최근접 이웃 하나를 기준으로 분류되는 ..
[머피 책] Chapter 1 #1
·
통계 & 머신러닝/스터디
머피 책 공부하면서 새롭게 알게된 사실 또는 궁금한 부분에 대한 기록입니다.순서형 변수머피책의 첫 섹션에서는 기본적인 머신러닝의 목적과 개요에 대해 이야기합니다. 분류문제의 내용을 읽는 중, `순서형` 범주에 관심이 쏠렸습니다. 범주형 반응변수에서 3가지 이상의 범주를 갖는 경우를 명목형 변수라하며, 그것이 순서의 특성을 갖는다면 순서형 변수라고 합니다.  그렇다면, 순서의 특성을 갖는 반응변수를 단순 명목형 변수로 더미코딩 (또는 원핫인코딩) 한다면 어떤 단점 또는 문제가 있을까요? 결론부터 말씀 드리자면, 연구의 목적에 따라 명목형으로 반응변수를 다루어도 큰 상관은 없어보입니다. 다만, 상황의 차이에서 오는 문제와 방법론이 갖는 고유한 차이점만 존재하는것 같습니다.Prediction통계의 관점에서 분..
Gene Set Enrichment Analysis
·
통계 & 머신러닝/생물정보통계 모델
Gene Set Enrichment Analysis`Gene Set Enrichment Analysis (GSEA)`는 `In Silico``pathway` 분석 기법으로, `microarray`나 `RNA-seq` 자료를 통해 특정 `gene set`이 관심있는 `표현형`과 얼마나 연관성이 있는지 확인하는 통계적 기법입니다. 여러 전통적인 기법과`PAEA`와 같은 새로운 방법의 검정법 등이 논문에 많이 그리고 새로이 등장하고 있습니다. 그 중 `GSEA`는 독보적인 위치에 있습니다. 그 이유로`GSEA`가 단순한 기술적 선점효과 뿐 아니라, 굉장히 단순하여 이해하기 쉬움으로부터 오는 해석력까지 갖추고 있기 때문으로 보입니다. 이번 포스트 에서는 그 원리를 한번 확인해보겠습니다.Enrichment Sco..