본문 바로가기
IT 공부/AWS AI Practioner(완)

AWS AI Practitioner 14 ML Terms

by 랜턴K 2024. 10. 9.
반응형

GPT - Generative Pre-trained Transformer 자연어 생성 및 이해 

BERT - txt를 2가지 방향으로 읽음

RNN - 시퀀셜 데이터를 읽음 -> 스피치 / 타임 스케일의 예측에 강함

SVM - Support Vector Machine / Classification & Regression 

ResNet(Residual Network) - Deep Convolutional Neural Network (CNN) 이미지

WaveNet - raw audio waveform / 오디오 

GAN - Generative Adversial Network / 

          synthetic data -> 트레이닝 데이터와 유사한 이미지 비디오 음성 제작 

XGBoost - Extreme Gradient Boosting / Gradient 부스팅 적용 

 

Training Data 머신 러닝 

- Garbage 여부 중요 = Most Critical Stage 

- 레이블드 / 언레이블드 ; 인풋과 아웃풋을 갖고 있는 경우 레이블드 데이터 

    => Supervised / Unsupervised Learning 

- 구조화 / 비구조화 ; Tabular Data, Time Series Data 

 

ML 알고리즘 - 지도학습 

- Regression  회귀 / 인풋을 집어넣고 아웃풋을 예측할 수 있는 것 / output이 continual  

- Classification 분류 / 카테고리를 분류 / 아웃풋이 discrete 

=> training Set - 60-80% 트레이닝 데이터 /

    Validation Data  하이퍼파라미터 튜닝용 10-20%

    Test Set 10-20% 테스트용 
Feature Engineering 

- ML에서 더 활용하기 좋은 데이터로 바꾸는 작업 (생년월일 -> 나이) 

- 텍스트 ; 숫자로 변경한다 TF-IDF 데이터나, 워드 임베딩을 사용

- 이미지 ; CNN을 사용하여  edge나 texutre의 Features를 잡아낸다  

 

ML 알고리즘 - 비지도 학습

내재된 패턴 구조 관계를 찾는 게 목표 

Clustering ; K-mean Clustering / 

Dimensionality Reduction

Association Rule Learning ; Apriori 알고리즘 

Anomaly Detection Technique ; 이미 클러스터링된  것과 완전히 다른 데이터 감지 가능 

 

Semi-Supervised Learing 

적은 레이블드 데이터 / 많은 언레이블드 데이터 

-> 둘 다를 학습 

-> 학습된 알고리즘이 언레이블드를 레이블링 ; pseudo-labeling 

-> 그리고 그것을 다시 학습 

 

Reinforcement Learning 

Agent가 환경과 상호작용하면서 보상/패널티에 의해서 학습하는 방식 

State - Agent의 상태 

Policy - Agent의 행동을 제약 

; Game / Robot / Finance / Health care / automotive 

+ RLHF Reinforcement Learning Human Feedback 

- 별도의 리워드 모델을 만든다 

- A/B 테스트를 시킨다 

 

Model Fit 

- 오버피팅 (트레이닝에서는 잘 동작 / 실제 데이터에서는 에러 많음)

- 언더피팅 (트레이닝 데이터에서 동작 X)

- 밸런스 피팅 되야 함 

 

Bias 

- 실제 값과 예측값의 차이 / 에러

- ML 개발 시 선택을 잘못할 경우 발생함 

ex) 언리니어 데이터에 대해서 리니어회귀 하는 경우 등 

- 해결방법 ; 데이터 확인 / 컴플렉스한 모델 채택 

 

Variance 

- 동일 표준편차를 가진 서로 다른 트레이닝 데이터셋을 사용할 때, 얼마나 모델 편차가 생기는가

- 높은 배리언스 ; 트레이닝 데이터에 따라 모델이 민감하게 바뀌는 경우

- 오버피팅의 예시 중 하나 

- Training data에서 feature 재 선정 

- training / test 데이터 셋을 더 쪼갠다 

 

Model Evaluation Metrics 

이진 분류 예시) 이진분류에서 실제와 예측 4가지 사분면이 나온다 

Confusiton Matrix 를 만들고 아래처럼 수식을 만들 수 있다 

- Precision = True Positive / (True Positive + False Positive)

  -> 모델이 Ture로 예측한 것에서 정확도  

- Recall  = True Positive / (True Postivite + False Negative)

  -> 재현도 ; 실제값이 True인 것 중에 예측이 True인 것

- F1 = 2*Precision*Recall / (Precision + Recall) 

- Accuracy = (TP+TN )/ (TP + TN + FP + FN)  ; 데이터셋이 균일할 때만 사용이 가능하므로, 쓸일이 없다  

 

 

분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Sc

분류 모델 성능 평가 지표 Linear 모델에 대해서는 R-Square, MSE 등 으로 모델의 성능을 평가한다.그렇다면 분류 모델에 대해서는 모델의 성능을 어떻게 평가할 수 있을까? 여러가지 방법이 있지만,

leedakyeong.tistory.com

 

AUC-ROC ; Area under the Curve Reciver operator Curve

- 0~1까지의 값

- Sensitivity와(TP rate) I-specificity를(FP rate) 사용 

- FP에 대한 TP 커브라고 보면 된다

- TP케이스라고 판단하는 Threshold가 낮으면(Positive 예측), TP-rate도 높고, FP-rate도 높다.  

- 즉, Threshold에 대해서 TP-rate와 / FP-rate는 어느정도 비례다 

- ROC는 모든 가능한 Threshold에 대해서 TP/FP 레이트에 대해 알아보는 것

- (1,1)점은 Threshold가 가장 낮은 지점이고, (0,0)은 Threshold가 가장 높은 지점

 

AUC-ROC 커브

AUC-ROC 커브 StartBioinformaticsAndMe 1. AUC - ROC Curve?: AUC-ROC 곡선은 다양한 임계값에서 모델의 분류 성능에 대한 측정 그래프임*ROC(Receiver Operating Characteristic) = 모든 임계값에서 분류 모델의 성능을 보여

bioinformaticsandme.tistory.com

 

연속값에 대한 것에 대한 Model Evaluation 

MAE ; Mean Absolute Error 

MAPE ; Mean Absolute Percentage Error 

RMSE ; Root Mean Squared Error

R^2 ; Variance -> 1에 가까울 수록 좋은 것 

 

[R] 결정계수(R-Squared)의 의미와 계산 방법

#통계학 #회귀분석 #결정계수 결정계수(R-Squared)에 대해서 알아보겠습니다. 흔히 R 제곱이라고 불리는...

blog.naver.com

 

반응형