GPT - Generative Pre-trained Transformer 자연어 생성 및 이해
BERT - txt를 2가지 방향으로 읽음
RNN - 시퀀셜 데이터를 읽음 -> 스피치 / 타임 스케일의 예측에 강함
SVM - Support Vector Machine / Classification & Regression
ResNet(Residual Network) - Deep Convolutional Neural Network (CNN) 이미지
WaveNet - raw audio waveform / 오디오
GAN - Generative Adversial Network /
synthetic data -> 트레이닝 데이터와 유사한 이미지 비디오 음성 제작
XGBoost - Extreme Gradient Boosting / Gradient 부스팅 적용
Training Data 머신 러닝
- Garbage 여부 중요 = Most Critical Stage
- 레이블드 / 언레이블드 ; 인풋과 아웃풋을 갖고 있는 경우 레이블드 데이터
=> Supervised / Unsupervised Learning
- 구조화 / 비구조화 ; Tabular Data, Time Series Data
ML 알고리즘 - 지도학습
- Regression 회귀 / 인풋을 집어넣고 아웃풋을 예측할 수 있는 것 / output이 continual
- Classification 분류 / 카테고리를 분류 / 아웃풋이 discrete
=> training Set - 60-80% 트레이닝 데이터 /
Validation Data 하이퍼파라미터 튜닝용 10-20%
Test Set 10-20% 테스트용
Feature Engineering
- ML에서 더 활용하기 좋은 데이터로 바꾸는 작업 (생년월일 -> 나이)
- 텍스트 ; 숫자로 변경한다 TF-IDF 데이터나, 워드 임베딩을 사용
- 이미지 ; CNN을 사용하여 edge나 texutre의 Features를 잡아낸다
ML 알고리즘 - 비지도 학습
내재된 패턴 구조 관계를 찾는 게 목표
Clustering ; K-mean Clustering /
Dimensionality Reduction
Association Rule Learning ; Apriori 알고리즘
Anomaly Detection Technique ; 이미 클러스터링된 것과 완전히 다른 데이터 감지 가능
Semi-Supervised Learing
적은 레이블드 데이터 / 많은 언레이블드 데이터
-> 둘 다를 학습
-> 학습된 알고리즘이 언레이블드를 레이블링 ; pseudo-labeling
-> 그리고 그것을 다시 학습
Reinforcement Learning
Agent가 환경과 상호작용하면서 보상/패널티에 의해서 학습하는 방식
State - Agent의 상태
Policy - Agent의 행동을 제약
; Game / Robot / Finance / Health care / automotive
+ RLHF Reinforcement Learning Human Feedback
- 별도의 리워드 모델을 만든다
- A/B 테스트를 시킨다
Model Fit
- 오버피팅 (트레이닝에서는 잘 동작 / 실제 데이터에서는 에러 많음)
- 언더피팅 (트레이닝 데이터에서 동작 X)
- 밸런스 피팅 되야 함
Bias
- 실제 값과 예측값의 차이 / 에러
- ML 개발 시 선택을 잘못할 경우 발생함
ex) 언리니어 데이터에 대해서 리니어회귀 하는 경우 등
- 해결방법 ; 데이터 확인 / 컴플렉스한 모델 채택
Variance
- 동일 표준편차를 가진 서로 다른 트레이닝 데이터셋을 사용할 때, 얼마나 모델 편차가 생기는가
- 높은 배리언스 ; 트레이닝 데이터에 따라 모델이 민감하게 바뀌는 경우
- 오버피팅의 예시 중 하나
- Training data에서 feature 재 선정
- training / test 데이터 셋을 더 쪼갠다
Model Evaluation Metrics
이진 분류 예시) 이진분류에서 실제와 예측 4가지 사분면이 나온다
Confusiton Matrix 를 만들고 아래처럼 수식을 만들 수 있다
- Precision = True Positive / (True Positive + False Positive)
-> 모델이 Ture로 예측한 것에서 정확도
- Recall = True Positive / (True Postivite + False Negative)
-> 재현도 ; 실제값이 True인 것 중에 예측이 True인 것
- F1 = 2*Precision*Recall / (Precision + Recall)
- Accuracy = (TP+TN )/ (TP + TN + FP + FN) ; 데이터셋이 균일할 때만 사용이 가능하므로, 쓸일이 없다
분류 모델 성능 평가 지표 - Confusion Matrix란? :: 정확도(Accuracy), 정밀도(Precision), 재현도(Recall), F1 Sc
분류 모델 성능 평가 지표 Linear 모델에 대해서는 R-Square, MSE 등 으로 모델의 성능을 평가한다.그렇다면 분류 모델에 대해서는 모델의 성능을 어떻게 평가할 수 있을까? 여러가지 방법이 있지만,
leedakyeong.tistory.com
AUC-ROC ; Area under the Curve Reciver operator Curve
- 0~1까지의 값
- Sensitivity와(TP rate) I-specificity를(FP rate) 사용
- FP에 대한 TP 커브라고 보면 된다
- TP케이스라고 판단하는 Threshold가 낮으면(Positive 예측), TP-rate도 높고, FP-rate도 높다.
- 즉, Threshold에 대해서 TP-rate와 / FP-rate는 어느정도 비례다
- ROC는 모든 가능한 Threshold에 대해서 TP/FP 레이트에 대해 알아보는 것
- (1,1)점은 Threshold가 가장 낮은 지점이고, (0,0)은 Threshold가 가장 높은 지점
AUC-ROC 커브
AUC-ROC 커브 StartBioinformaticsAndMe 1. AUC - ROC Curve?: AUC-ROC 곡선은 다양한 임계값에서 모델의 분류 성능에 대한 측정 그래프임*ROC(Receiver Operating Characteristic) = 모든 임계값에서 분류 모델의 성능을 보여
bioinformaticsandme.tistory.com
연속값에 대한 것에 대한 Model Evaluation
MAE ; Mean Absolute Error
MAPE ; Mean Absolute Percentage Error
RMSE ; Root Mean Squared Error
R^2 ; Variance -> 1에 가까울 수록 좋은 것
[R] 결정계수(R-Squared)의 의미와 계산 방법
#통계학 #회귀분석 #결정계수 결정계수(R-Squared)에 대해서 알아보겠습니다. 흔히 R 제곱이라고 불리는...
blog.naver.com
'IT 공부 > AWS AI Practioner(완)' 카테고리의 다른 글
AWS AI Practitoner 16 Amazon Comprehend / Translate / Transcribe (1) | 2024.10.14 |
---|---|
AWA AI Practitioner 15 ML Terms_2 (3) | 2024.10.13 |
AWS AI Practitioner 13 Amazon Q QuickSight (0) | 2024.10.05 |
AWS AI Practitioner 12 Amazon Q Apps / Developer (0) | 2024.10.04 |
AWS AI Practitioner 11 Amazon Q (2) | 2024.10.04 |