AWS AI Practitioner 14 ML Terms

GPT - Generative Pre-trained Transformer 자연어 생성 및 이해

BERT - txt를 2가지 방향으로 읽음

RNN - 시퀀셜 데이터를 읽음 -> 스피치 / 타임 스케일의 예측에 강함

SVM - Support Vector Machine / Classification & Regression

ResNet(Residual Network) - Deep Convolutional Neural Network (CNN) 이미지

WaveNet - raw audio waveform / 오디오

GAN - Generative Adversial Network /

synthetic data -> 트레이닝 데이터와 유사한 이미지 비디오 음성 제작

XGBoost - Extreme Gradient Boosting / Gradient 부스팅 적용

Training Data 머신 러닝

- Garbage 여부 중요 = Most Critical Stage

- 레이블드 / 언레이블드 ; 인풋과 아웃풋을 갖고 있는 경우 레이블드 데이터

=> Supervised / Unsupervised Learning

- 구조화 / 비구조화 ; Tabular Data, Time Series Data

ML 알고리즘 - 지도학습

- Regression 회귀 / 인풋을 집어넣고 아웃풋을 예측할 수 있는 것 / output이 continual

- Classification 분류 / 카테고리를 분류 / 아웃풋이 discrete

=> training Set - 60-80% 트레이닝 데이터 /

Validation Data 하이퍼파라미터 튜닝용 10-20%

Test Set 10-20% 테스트용
Feature Engineering

- ML에서 더 활용하기 좋은 데이터로 바꾸는 작업 (생년월일 -> 나이)

- 텍스트 ; 숫자로 변경한다 TF-IDF 데이터나, 워드 임베딩을 사용

- 이미지 ; CNN을 사용하여 edge나 texutre의 Features를 잡아낸다

ML 알고리즘 - 비지도 학습

내재된 패턴 구조 관계를 찾는 게 목표

Clustering ; K-mean Clustering /

Dimensionality Reduction

Association Rule Learning ; Apriori 알고리즘

Anomaly Detection Technique ; 이미 클러스터링된 것과 완전히 다른 데이터 감지 가능

Semi-Supervised Learing

적은 레이블드 데이터 / 많은 언레이블드 데이터

-> 둘 다를 학습

-> 학습된 알고리즘이 언레이블드를 레이블링 ; pseudo-labeling

-> 그리고 그것을 다시 학습

Reinforcement Learning

Agent가 환경과 상호작용하면서 보상/패널티에 의해서 학습하는 방식

State - Agent의 상태

Policy - Agent의 행동을 제약

; Game / Robot / Finance / Health care / automotive

+ RLHF Reinforcement Learning Human Feedback

- 별도의 리워드 모델을 만든다

- A/B 테스트를 시킨다

Model Fit

- 오버피팅 (트레이닝에서는 잘 동작 / 실제 데이터에서는 에러 많음)

- 언더피팅 (트레이닝 데이터에서 동작 X)

- 밸런스 피팅 되야 함

Bias

- 실제 값과 예측값의 차이 / 에러

- ML 개발 시 선택을 잘못할 경우 발생함

ex) 언리니어 데이터에 대해서 리니어회귀 하는 경우 등

- 해결방법 ; 데이터 확인 / 컴플렉스한 모델 채택

Variance

- 동일 표준편차를 가진 서로 다른 트레이닝 데이터셋을 사용할 때, 얼마나 모델 편차가 생기는가

- 높은 배리언스 ; 트레이닝 데이터에 따라 모델이 민감하게 바뀌는 경우

- 오버피팅의 예시 중 하나

- Training data에서 feature 재 선정

- training / test 데이터 셋을 더 쪼갠다

Model Evaluation Metrics

이진 분류 예시) 이진분류에서 실제와 예측 4가지 사분면이 나온다

Confusiton Matrix 를 만들고 아래처럼 수식을 만들 수 있다

- Precision = True Positive / (True Positive + False Positive)

-> 모델이 Ture로 예측한 것에서 정확도

- Recall = True Positive / (True Postivite + False Negative)

-> 재현도 ; 실제값이 True인 것 중에 예측이 True인 것

- F1 = 2*Precision*Recall / (Precision + Recall)

- Accuracy = (TP+TN )/ (TP + TN + FP + FN) ; 데이터셋이 균일할 때만 사용이 가능하므로, 쓸일이 없다

분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Sc

분류 모델 성능 평가 지표 Linear 모델에 대해서는 R-Square, MSE 등 으로 모델의 성능을 평가한다.그렇다면 분류 모델에 대해서는 모델의 성능을 어떻게 평가할 수 있을까? 여러가지 방법이 있지만,

leedakyeong.tistory.com

AUC-ROC ; Area under the Curve Reciver operator Curve

- 0~1까지의 값

- Sensitivity와(TP rate) I-specificity를(FP rate) 사용

- FP에 대한 TP 커브라고 보면 된다

- TP케이스라고 판단하는 Threshold가 낮으면(Positive 예측), TP-rate도 높고, FP-rate도 높다.

- 즉, Threshold에 대해서 TP-rate와 / FP-rate는 어느정도 비례다

- ROC는 모든 가능한 Threshold에 대해서 TP/FP 레이트에 대해 알아보는 것

- (1,1)점은 Threshold가 가장 낮은 지점이고, (0,0)은 Threshold가 가장 높은 지점

AUC-ROC 커브

AUC-ROC 커브 StartBioinformaticsAndMe 1. AUC - ROC Curve?: AUC-ROC 곡선은 다양한 임계값에서 모델의 분류 성능에 대한 측정 그래프임*ROC(Receiver Operating Characteristic) = 모든 임계값에서 분류 모델의 성능을 보여

bioinformaticsandme.tistory.com

연속값에 대한 것에 대한 Model Evaluation

MAE ; Mean Absolute Error

MAPE ; Mean Absolute Percentage Error

RMSE ; Root Mean Squared Error

R^2 ; Variance -> 1에 가까울 수록 좋은 것

[R] 결정계수(R-Squared)의 의미와 계산 방법

#통계학 #회귀분석 #결정계수 결정계수(R-Squared)에 대해서 알아보겠습니다. 흔히 R 제곱이라고 불리는...

blog.naver.com

'IT 공부 > AWS AI Practioner(완)' 카테고리의 다른 글

AWS AI Practitoner 16 Amazon Comprehend / Translate / Transcribe (1)	2024.10.14
AWA AI Practitioner 15 ML Terms_2 (3)	2024.10.13
AWS AI Practitioner 13 Amazon Q QuickSight (0)	2024.10.05
AWS AI Practitioner 12 Amazon Q Apps / Developer (0)	2024.10.04
AWS AI Practitioner 11 Amazon Q (2)	2024.10.04

Product Manager 랜턴

AWS AI Practitioner 14 ML Terms

'IT 공부 > AWS AI Practioner(완)' 카테고리의 다른 글

티스토리툴바

AWS AI Practitioner 14 ML Terms

'IT 공부 > AWS AI Practioner(완)' 카테고리의 다른 글

관련글

티스토리툴바