[pandas] 피쳐엔지니어링 주의: 더미코딩 순서
·
코딩/이슈
아주아주 간단한건데, 너무 자주 까먹어서 메모겸 올립니다.더미코딩을 사용하는 분류문제에서 종종 예기치 못한 차원 에러가 생깁니다. 예를들면 다음과 같습니다.ValueError: shapes (1,1) and (3,) not aligned: 1 (dim 1) != 3 (dim 0) 데이터를 나눈 다음에 더미코딩을 하여 차원이 달라져 생긴 문제입니다. 특히 카테고리수가 많고, 심각한 약소 카테고리가 존재하여 나뉘어진 데이터셋에 해당 카테고리가 등장하지 않는 경우의 일입니다. 종종 어떤 문제들은 구조적으로 데이터 나누기를 먼저하도록 강제하기도 합니다. 예를들어,같은 모델을 사용하는데, 조건을 다르게하여 실험할 때에, 조건마다 데이터 나누는 방식이 달라질 때가 있습니다. 조건 1에서는 랜덤으로 나누고, 조건 2..