범주형 피쳐
·
통계 & 머신러닝/피처 엔지니어링
범주형 피쳐범주형 피쳐는 성별, 혈액형, 중증도 등등으로 나뉠 수 있습니다. 먼저 일반적인 범주형 자료로는 성별같이 남/녀로 나뉘는 이진형 자료, 혈액형같이 A/B/O/AB로 나뉘는 다중 클래스형이 있으며, 중증도 정보인 미미함/중간/심함과 같이 순서 정보를 담고 있으면 순서형 자료로 볼 수 있습니다. 이러한 자료들은 일반적으로 문자열 형으로 입력이 되어 트리기반 알고리즘에서는 큰 문제없이 작동합니다. 하지만, 그 외의 많이 사용하는 모델들은 모두 수치적인 자료만 인식 가능하다보니, 적절한 수치로의 변환이 필요합니다. 단순한 이진형 자료의 경우 0/1로 코딩하면 되니 문제가 되지는 않지만, 그 외의 다중 클래스형과 순서형 자료에 대하여 어찌 변환해야하는지 기본적인 방법을 통해 확인해보겠습니다.다중 클래스..
피쳐 정규화
·
통계 & 머신러닝/피처 엔지니어링
정규화머신 러닝 모델을 구축할 때, 피처 정규화는 굉장히 중요한 역할을 합니다. R & Python에 작성된 라이브러리는 보통 피처를 자동으로 정규화하는 부분이 구현되어있어 종종 우리는 그 중요성을 잊고는 합니다. 그렇다면 어떤 효과와 어떤 이유로 중요한지 알아보겠습니다.변환우선 피쳐의 정규화는 데이터셋의 각 피처의 제 각각인 범위를 일정한 범위 내로 맞추어주는 일종의 변환 작업입니다. 크게 표준화와 정규화, 두가지 방법이 있습니다. 이러한 두 방법은 혼용되기도 하지만, 정확히는 다음과 같은 정의를 갖습니다.표준화: 데이터의 평균을 0, 표준편차를 1로 변환 (eg. z-score standardization)정규화: 데이터 값을 0과 1 사이의 범위로 스케일링 (eg. min-max scaling)사용..