728x90 cnn1 [ML] 불균형 데이터 (Imbalanced Data) 불균형 데이터 Imbalanced Data 불균형 데이터(Imbalaced Data)란? 레이블이 범주형인 분류 문제에서 도수 차이가 매우 커 불균형하게 나타나는 상태를 말합니다. 불균형 데이터의 문제점 불균형 데이터를 그대로 예측하게 된다면 과적합의 문제가 발생합니다. 예를들어 1000개의 데이터에서 1이 95개, 0이 5개 존재합니다. 이 데이터가 모두 1로 예측을 한다 하더라도 정확도는 95%의 높은 정확도가 나옵니다. 그러면 예측을 다 1로 해! 그래도 정확도가 95%잖아! -> 쓰레기 분석 만약에 이러한 데이터가 신용카드 사기 예측이나 암환자 발생률이라 하면 큰 문제가 발생할수도 있겠죠? 따라서 오분류율을 최대한 줄이기 위해 노력해야합니다. 불균형 데이터 해결책 1. 언더샘플링(Undersamp.. 2022. 11. 30. 이전 1 다음 728x90