'3-2/기계학습' 카테고리의 글 목록

12주차-Learning Strategies

Knowledgw Distillation- "지식을 증류한다"라는 의미- 상대적으로 성능이 뛰어나고 용량이 큰 모델(teacher)에서 상대적으로 용량이 작은 모델(student)로 지식을 추출하는 방법 Cross Entropy & Entropyp: 실제 확률 분포 / q: 모델의 예측 확률 분포Cross Entropy> H(p, q)Entropy> H(p)EX) KL Divergence(Kullback-Leibler divergence)(KL div)- 두 확률 분포 p와 q간의 차이를 측정하는 방법성질>1. 비음수성- 두 분포가 같을 때만 0이 된다.2. 비대칭성- KL div는 대칭적이지 않다.KL div Loss> Soft LabelHard Label- 정확한 클래스에만 확률 1을 할당하고 나머지..

3-2/기계학습 2024.12.07

11주차-Loss Function Design

Feature Extractor & Classifier1. 입력 벡터 x가 주어진다.2. 네트워크 레이어 W를 통과하며 hidden feature a를 생성한다. => 최종 hidden feature a[L-1]은 Feature Vector(Embedding Vector)로 사용 3. Feature Vector v는 classifier g()를 통해 모델의 예측값 yhat으로 변환 Feature Embedding Space- Embedding Vector v: 각 데이터 포인트가 Embedding space에 매핑된 Vector- yij = 1: 두 샘플이 같은 클래스에 속한다.- yij = 0: 두 샘플이 다른 클래스에 속한다.- Easy Sample: 분리가 잘 된 샘플- Hard Sample: 분리..

3-2/기계학습 2024.12.07

10주차-Multi-class Classification

Multi-class Classification- binary classification에 관해서 다뤘었다 => Logistic Regression- Multi-class Classification으로 확장을 해보자 Decision Boundary of Multi-class Classification Softmax Regression(Classification)Softmax>Logistic Regression의 일반화된 형태로 설명된다.- Softmax는 각 클래스의 확률을 계산하며, 계산된 확률의 총합은 항상 1이 된다.- Softmax는 (one-shot) argmax의 smooth approximation으로 사용된다.EX) Hard Max VS Soft MaxLogistic VS Softmax A..

3-2/기계학습 2024.12.01

9주차-Activations, Implementation Details of Neural Network

Choosing Activation Function for Output Layer - Sigmoid: Binary Classification 문제에서 사용- Linear: Regression 문제- ReLU: Hidden Layer층에서 주로 사용, 음수값 제거 - Tanh: 양수와 음수를 모두 고려 Choosing Activation Functions for Hidden Layer- Sigmoid: 출력값이 확률값을 나타낼 때 사용- ReLU: 효율성과 간단함, 음수값 제거- Leaky ReLU: 음수값을 제거하지 않고 작은 기울기를 부여- GELU: Gaussian 분포를 따르는 Activation Funtion Why Nonlinear Activation Function- Linear Functio..

3-2/기계학습 2024.11.27

8주차-Neural Network

Perception(Logistic regression) xwbzanameinputweightbiaslogitactivationtypevectorvectorscalarscalarscalar- Perception은 기본적으로 Logistic Regression과 유사하며, 이진 분류 문제를 해결하기 위해 사용- input data를 weight와 결합해 특정 Class에 속하는지 결정 A Layer Neural Network Layers Neural Network Layers(Forward Path) Input space- input vector x가 다차원 공간에서의 점으로 표현Hidden Feature space- Hidden Feature space a[i]는 입력 공간을 non-linear으로 변환..

3-2/기계학습 2024.11.27

7주차-Regularization

Regularization(정규화,규제화)어떤 규제를 가해서 모델의 학습 데이터에 대한 overfitting을 완화하는 방법(EX) L2-regularization, L1-regularization, Drop out, Weight decay- Training Accuracy(TA)- Test Accuracy = Gemeralization Performance(일반화 성능)(GP) Regression Classification RegularizationEX) L2-Regularization (polynomial fitting) Gradient Descent with L2-RegularizationL2-Regularization (Classification) L1-Regularization (LASSO) M..

3-2/기계학습 2024.10.27

6주차-Binary Classification

Binary Classificationyes or no problem(True or False)=> 문제 정의가 중요!EX) Binary Classification with Linear Regression Logistic RegressionSigmoid Function Decision BoundarySigmoid Function1D EX) Linear regression VS Logistic regression Non-linear Decision Boundary Loss Function for Logistic RegressionSingle Line formGradient Descent for Logistic Regression Partial dervative of Wj

3-2/기계학습 2024.10.27

5주차-Vectorization, Locally weighted regression

Vectorization Properties of Transpose Normal Equation Locally weighted regression"Parametic" learning algorithmFit fixed set of parameters(w) to dataEX) linear regression, Neural Network주어진 학습데이터로 파라미터 학습을 완료한 이후에 test를 수행한다."Non-parametic" learning algorithmAmount of data/parameters you need to keep grows(linearly) with size of dataEX) K-nearest neighbors, Locally weighted regressiontest를 수행할 때..

3-2/기계학습 2024.10.09

4주차-Multiple features

Batch Gradient Descent Stochastic Gradient Descent Linear Regression with Multiple features(input)Model parametersw1~w4: 집 값을 예측하는데 각 feature가 기여하는 정도=> 부호(+/-)는 비례/ 반비례 관계 설명w0: 기본 가격 Loss functionUpdate rule Feature ScalingEx)Feature size and Gradient desentnon-scaled faeatureScaled feature ScalersMinMaxScaler각 feture마다 적용 Mean SclaerStandard Scaler EX) Termination condition(종료 조건)1. #iter을 미리..

3-2/기계학습 2024.10.08

3주차-Linear Regression, Gradient Descent

Linear Regression"target" 이 하나가 아닌 경우 학습이 쉽지 않다. 모델 설정Model parameters (weights) ErrorLoss function(Cost function, Objective function)Object Gradient Descent- Loss surface Update RuleLearnable ParametersW, 데이터 고정, model과 loss function도 정의되어 있음.변하는 것 (학습해야 하는 대상)은 W다. Pseudo Code Learning rate(lr)1. Small Learning rate: 많은 시간이 든다.2. Large Learning rate: 수렴에 실패할 수 있다.=> 적당한 Learning rate 필요 Small..

3-2/기계학습 2024.09.29

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

donghunkang

3-2/기계학습 11

티스토리툴바