IT 공부/Machine Learning6 머신 러닝 학습 5. 범주형 데이터 (Categorial Variable) 카테코리얼 변수는, 말 그대로 변수의 값이 한정된 경우를 말한다.가령, 설문조사의 만족도 조사는 아래의 5가지 정도에서 한정된다 - 매우 좋다 - 좋다 - 보통 - 좋지 않다 - 매우 좋지 않다 카테고리얼 변수를 포함하여 머신러닝에서 학습시키고자 할 때, 총 3가지 전략을 세울 수 있다. 1. 카테고리얼 변수에 해당하는 칼럼을 드롭한다 2. ordinal encoding 3. one hot encoding 이 중 1번은 알아볼 필요가 없을 것 같고,2/3번의 경우는 카테고리얼 변수의 형태에 따라 선택할 수 있다. Ordinal Encoding은, 맨 위의 예시처럼 범주형 변수가 순서를 가질 때 사용할 수 있다.예컨데, 매우좋다에 5점을, 보통에 3점을, 매우 좋지 않다에 1점을 부여하는 것이다.데이.. 2024. 7. 1. 머신 러닝 학습_4 이전 글에서 본 데이터 전처리 내용이다. 결측치를 포함한 열을 제거하고,머신러닝 시키기 간편한 숫자 데이터만 남기기 위해서, str 데이터를 드롭했다. X_full.dropna(axis=0, subset=['SalePrice'], inplace=True)- dropna() : 결측치를 포함한 행 또는 열을 날려버린다.- axis = 0 : 0은 행 / 1은 열을 날리게 설정한다는 뜻- subset= ['SalePrice'] : SalePrice 열에 대해서 결측치 여부를 판단한다는 뜻 - inplace = True : True 면 실 데이터에도 결측치 제거를 반영 / False면 실 데이터는 내비두고, 결측치 제거 데이터의 사본을 전달한다 X_full.dro.. 2024. 6. 25. 머신 러닝 학습_3 데이터 학습 전처리가 필수적인데, 가장 주요한 문제 중 하나는 Missing Values 문제다. 1. 데이터 수집 과정에서 누락되거나 2. 개념적인 관점에서 칼럼에 데이터가 입력될 수 없거나 등이 원인이 된다. (예컨데, 고속도로를 탈 일이 없는 주부의 자동차 데이터는, 고속 구간 주행 데이터가 계속 누락될 것이다 ) 이 경우 어떻게 해야할까? 세가지 방법이 우선 제시될 수 있다. 1. Drop - NaN 데이터를 포함하는 칼럼 또는 로우를 학습데이터에서 제외 2. Imputation - NaN 데이터를 다른 데이터로 대체 / 이 때, 어떻게 대체할 값을 정할 것인지 방법론이 많다 3. Extention to Imputation - 임퓨테이션 확장 / 대체값 여부를 별도 표기하여 별도 알.. 2024. 6. 20. 머신 러닝 학습_2 Train 데이터를 통해 학습을 했기 때문에,Train 데이터에 대한 예측은 매우 정확할 수 밖에 없다. 다른 말로, Train 데이터를 갖고 예측하는 것은 너무 당연한 결과라서 의미가 없다는 말이다. 어떤 학생에게 정답을 이미 알려주었는데,그 학생이 시험을 100점 맞았다고 해서,그 학생이 공부를 열심히해서, 모든 내용에 통달해서 100점 맞았다라고 얘기할 수 없는 것과 같다. 따라서, 갖고 있는 데이터 중 Train 데이터 셋과 Test 셋을 나누고 Train 데이터 셋으로 학습을 시킨 후학습시키지 않은 Test 데이터 셋으로 평가를 진행한다. sklearn 라이브러리 model_selection 모듈에서 train_test_split 함수를 임포트한다 Train 데이터 셋과 Test 데이터 셋을 .. 2024. 6. 18. 머신러닝 학습_1 Pandas는 파이썬을 위한 데이터 조작 및 분석 라이브러리다. 특히, Dataframe이라는 구조를 사용하여 데이터를 엑셀 시트와 비슷하게 다룰 수 있게 지원한다. import pandas as pd Pandas는 CSV, Excel, SQL, Json 등의 포맷 데이터를 지원한다.아래 예시는 csv 파일의 경로를 melbourne_file_path 변수에 저장하고,melbourn_data 변수에서 Pandas csv 파일 읽기 함수를 통해 데이터를 읽어들이는 과정이다. # save filepath to variable for easier accessmelbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'# read th.. 2024. 6. 17. 머신 러닝 공부 시작 머신러닝 공부...여러번 시작했다가, 매번 흐지부지 끝나곤 했다.관심이야 22년 하반기부터 있었고,관심을 실천으로 옮긴 건 23년 하반기부터 즈음이었으니까방황(?)의 시간이 길게보면 2년이고 짧게봐도 1년은 되었다. 유튜브 알고리즘이 이따금씩, '넌 바보야'라고 말하듯이 관련 영상을 띄워줄 때면, 착잡해지곤 했다. 예컨데, '당신이 머신러닝 공부에 실패한 이유', '머신러닝 이렇게 공부하지 마세요' 등 등요새는 다들 제목을 왜 이렇게도 잘 쓰는 건지. 그리고 다시 시작하기로 했다. 이번에는 성공하려면 어떻게 해야할까?를 조금 고민했고, 지난 1-2여년간 실패한 경험과 알게 된 것들을 조합하여 다시 한 번 리트라이를 하기로 했다. 1. 백본이 되는 학습 액티비티를 교체하기로 했다. 원래는 강의를 기반.. 2024. 6. 16. 이전 1 다음 반응형