반응형
데이터 학습 전처리가 필수적인데,
가장 주요한 문제 중 하나는 Missing Values 문제다.
1. 데이터 수집 과정에서 누락되거나
2. 개념적인 관점에서 칼럼에 데이터가 입력될 수 없거나 등이 원인이 된다.
(예컨데, 고속도로를 탈 일이 없는 주부의 자동차 데이터는, 고속 구간 주행 데이터가 계속 누락될 것이다 )
이 경우 어떻게 해야할까?
세가지 방법이 우선 제시될 수 있다.
1. Drop - NaN 데이터를 포함하는 칼럼 또는 로우를 학습데이터에서 제외
2. Imputation - NaN 데이터를 다른 데이터로 대체 / 이 때, 어떻게 대체할 값을 정할 것인지 방법론이 많다
3. Extention to Imputation - 임퓨테이션 확장 / 대체값 여부를 별도 표기하여 별도 알고리즘 내에서 처리한다
반응형
'IT 공부 > Machine Learning' 카테고리의 다른 글
머신 러닝 학습 5. 범주형 데이터 (Categorial Variable) (0) | 2024.07.01 |
---|---|
머신 러닝 학습_4 (0) | 2024.06.25 |
머신 러닝 학습_2 (0) | 2024.06.18 |
머신러닝 학습_1 (0) | 2024.06.17 |
머신 러닝 공부 시작 (1) | 2024.06.16 |