본문 바로가기
IT 공부/Machine Learning

머신 러닝 학습_3

by 랜턴K 2024. 6. 20.
반응형

데이터 학습 전처리가 필수적인데,

 

가장 주요한 문제 중 하나는 Missing Values 문제다. 

1. 데이터 수집 과정에서 누락되거나 

2. 개념적인 관점에서 칼럼에 데이터가 입력될 수 없거나 등이 원인이 된다. 

    (예컨데, 고속도로를 탈 일이 없는 주부의 자동차 데이터는, 고속 구간 주행 데이터가 계속 누락될 것이다 )

 

이 경우 어떻게 해야할까? 

 

세가지 방법이 우선 제시될 수 있다. 

1. Drop - NaN 데이터를 포함하는 칼럼 또는 로우를 학습데이터에서 제외 

2. Imputation  - NaN 데이터를 다른 데이터로 대체 / 이 때, 어떻게 대체할 값을 정할 것인지 방법론이 많다  

3. Extention to Imputation  - 임퓨테이션 확장 / 대체값 여부를 별도 표기하여 별도 알고리즘 내에서 처리한다 

반응형

'IT 공부 > Machine Learning' 카테고리의 다른 글

머신 러닝 학습 5. 범주형 데이터 (Categorial Variable)  (0) 2024.07.01
머신 러닝 학습_4  (0) 2024.06.25
머신 러닝 학습_2  (0) 2024.06.18
머신러닝 학습_1  (0) 2024.06.17
머신 러닝 공부 시작  (1) 2024.06.16