본문 바로가기
728x90

Data Analysis/ML2

[ML] 불균형 데이터 (Imbalanced Data) 불균형 데이터 Imbalanced Data 불균형 데이터(Imbalaced Data)란? 레이블이 범주형인 분류 문제에서 도수 차이가 매우 커 불균형하게 나타나는 상태를 말합니다. 불균형 데이터의 문제점 불균형 데이터를 그대로 예측하게 된다면 과적합의 문제가 발생합니다. 예를들어 1000개의 데이터에서 1이 95개, 0이 5개 존재합니다. 이 데이터가 모두 1로 예측을 한다 하더라도 정확도는 95%의 높은 정확도가 나옵니다. 그러면 예측을 다 1로 해! 그래도 정확도가 95%잖아! -> 쓰레기 분석 만약에 이러한 데이터가 신용카드 사기 예측이나 암환자 발생률이라 하면 큰 문제가 발생할수도 있겠죠? 따라서 오분류율을 최대한 줄이기 위해 노력해야합니다. 불균형 데이터 해결책 1. 언더샘플링(Undersamp.. 2022. 11. 30.
[ML] 지도학습과 비지도학습 지도학습, 비지도학습 머신러닝(Machine Learning)은 일반적으로 데이터를 기반으로 패턴을 학습하고 그 결과를 예측하는 알고리즘 기법입니다. 일반적으로 머신러닝은 3가지로 나뉩니다. 1. 지도학습(Supervised Learning) 2. 비지도학습(Unsupervised Learning) 3. 강화학습(Reinforcement Learning) 그럼 이제 차례대로 자세히 알아보겠습니다. 1. 지도학습(Supervised Learning) 지도학습은 명시적인 답이 있는 데이터가 주어진 상태에서 학습하는 러닝머신 방식입니다. 지도학습은 크게 분류와 회귀로 나뉩니다. 간단히 설명하자면, 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성.. 2022. 11. 8.
728x90