본문 바로가기
728x90

Data Analysis5

[ML] 불균형 데이터 (Imbalanced Data) 불균형 데이터 Imbalanced Data 불균형 데이터(Imbalaced Data)란? 레이블이 범주형인 분류 문제에서 도수 차이가 매우 커 불균형하게 나타나는 상태를 말합니다. 불균형 데이터의 문제점 불균형 데이터를 그대로 예측하게 된다면 과적합의 문제가 발생합니다. 예를들어 1000개의 데이터에서 1이 95개, 0이 5개 존재합니다. 이 데이터가 모두 1로 예측을 한다 하더라도 정확도는 95%의 높은 정확도가 나옵니다. 그러면 예측을 다 1로 해! 그래도 정확도가 95%잖아! -> 쓰레기 분석 만약에 이러한 데이터가 신용카드 사기 예측이나 암환자 발생률이라 하면 큰 문제가 발생할수도 있겠죠? 따라서 오분류율을 최대한 줄이기 위해 노력해야합니다. 불균형 데이터 해결책 1. 언더샘플링(Undersamp.. 2022. 11. 30.
[ML] 지도학습과 비지도학습 지도학습, 비지도학습 머신러닝(Machine Learning)은 일반적으로 데이터를 기반으로 패턴을 학습하고 그 결과를 예측하는 알고리즘 기법입니다. 일반적으로 머신러닝은 3가지로 나뉩니다. 1. 지도학습(Supervised Learning) 2. 비지도학습(Unsupervised Learning) 3. 강화학습(Reinforcement Learning) 그럼 이제 차례대로 자세히 알아보겠습니다. 1. 지도학습(Supervised Learning) 지도학습은 명시적인 답이 있는 데이터가 주어진 상태에서 학습하는 러닝머신 방식입니다. 지도학습은 크게 분류와 회귀로 나뉩니다. 간단히 설명하자면, 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성.. 2022. 11. 8.
[DL] 다층 퍼셉트론, MLP 다층 퍼셉트론(MLP, MultiLayer Perceptron) (단층) 퍼셉트론에서는 XOR 게이트를 해결하지 못했습니다. 하지만 퍼셉트론에 층을 쌓아 올린 '다층 퍼셉트론'을 통해 XOR 게이트의 문제를 해결할 수 있습니다. 즉, 은닉층을 추가하면 비선형적인 문제를 풀 수 있습니다. XOR 게이트를 만들려면 AND, NAND 그리고 OR 게이트를 조합하여 만들 수 있습니다. 위 출력을 진리표로 표현하면 다음과 같이 나타납니다. 진리표를 확인하면 NAND, OR 그리고 AND 의 조합을 통해 XOR를 표현 가능하다는 것을 볼 수 있습니다. 단지 입력층과 출력층 사이에 은닉층을 하나 추가하였을 뿐인데 말이지요. 따라서 퍼셉트론에 층을 거듭 쌓으면 비선형적인 표현이 가능해진다! 간단하게 파이썬으로 XOR게.. 2022. 9. 25.
[DL] 퍼셉트론 Perceptron, TLU 퍼셉트론(Perceptron) 퍼셉트론은 저번 [DL] 첫 게시물 딥러닝의 역사 부분에서 언급되었습니다. 퍼셉트론은 1957년 코넬 항공 연구소의 로젠블라트Frank Rosenblatt에 의해 고안되었다고 합니다. 이렇게 오래된 알고리즘을 왜 알아야하냐 하면, 퍼셉트론이 신경망(딥러닝)의 기원이 되는 알고리즘이기 때문입니다. 퍼셉트론이란? 퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력합니다. (전류와 강물의 흐름과 비슷합니다.) 퍼셉트론 신호도 흐름을 만들고 정보를 앞으로 전달하고, 1과 0 두 가지의 값만 가지게 됩니다. 다음은 입력이 2개인 퍼셉트론의 예이며, x1과 x2는 입력신호, w1과 w2는 가중치, y는 출력신호를 뜻합니다. 입력신호가 각 뉴런에 보내질 때에는 고유한 가중치가 곱.. 2022. 9. 19.
728x90