분류 전체보기 202

5주차-Optimization Algorithms

Batch vs mini-batch gradient descentBatchMini-batchmini-batch size:1. small training set(m2. Typical mini-batch size: 64, 128, 256, 512, 10243. mini-batch가 cpu, gpu 메모리에 들어가도록 하는 것이 중요 Exponentially weighted averages (지수 가동 이동 평균법)베타 높이면 (초록색 그래프) 선이 약간 오른쪽으로 이동베타 줄이면 (노란색 그래프) 선 내에서 더 많은 진동이 발생Bias correction Gradient descentMomentumRMSpropAdom optimization algorithmMomentum과 RMSprop를 더해서 만든다.L..

3-1/Deep Learning 2024.05.11

4주차-Practical Aspects of Deep Learning

Train/ dev(development)/ test setsdev set과 test set의 분포를 동일하게 하는 것이 좋다.test set없이 dev set만 있어도 상관X​Bias/ Variance1) Bias(편향)예측값과 실제 정답과의 차이의 평균예측값이 실제 정답과 얼만큼 떨어져 있는지 나타냄클수록 예측값과 정답 값 간의 차이가 크다. 2) Variance(분산)다양한 데이터 셋에 대하여 예측값이 얼만큼 변화할 수 있는지에 대한 양, 얼만큼 예측값이 퍼져서 다양하게 출력될 수 있는 정도 Regularizationoverfitting을 방지(variance를 줄이는)방법으로 데이터를 늘리는 방법도 있지만, 대용량의 데이터 수준이 어려울 경우 regularization으로 해결 가능 1) Logi..

3-1/Deep Learning 2024.05.11

3주차-Deep Neural Networks

Active Function1) Sigmoid -> 0~1사이 값 반환2) Tanh -> 데이터 평균 0이 되도록 함, -1~1사이 값 반환  보통 tanh가 sigmoid보다 우수/ 예외) 이진분류에서는 sigmoid가 우수​3) ReLU -> 기울기 = 1  4) Leaky ReLU => 음수 쪽 기울기 = 0.01 Deep neural network Forward and Backward function캐시(Cache): 순방향 전파 중 계산된 변수를 해당 역방향 전파 단계로 전달하는데 사용. 도함수를 계산하기 위한 역방향 전파에 유용한 값 포함.​

3-1/Deep Learning 2024.05.11

2주차-Shallow Neural Networks

Logistic Regression(로지스틱 회귀)ŷ (P(y=1|X): 입력 값인 X에 대해서, y(주어진 입력 특성 X에 해당되는 실제 값)가 1일 때의 예측값예측값 ŷ은 X일 때 y가 1인 확률(0 ≤ ŷ ŷ = wX + b (w, b = 파라미터, w = 입력 값, b = 잔차)에서 0과 1 사이의 확률 범위를 벗어날 수 있기에, 이때 시그모이드 함수(sigmoid function) 등을 활용해 0과 1 사이의 값으로 변환 Logistic Regression cost function(로지스틱 회귀 비용 함수)1) Loss(error) function(손실함수):하나의 입력에 대해 실제값(y)와 예측값(ŷ)의 차이인 오차를 계산하는 함수2) Cost function(비용함수): 모든 입력에 대한 오..

3-1/Deep Learning 2024.05.11

9주차-SVM(2)

​Support Vector Machine with Soft Margin전략 1. 예외를 허락2. 넘어가는 정도를 penalty로 정의3. penalty도 최소화(margin을 최대화와 동시에)​Soft margin Support vector machine Lagrangrian Primal problem Lagrangian Dual Formulation  KKT Condition​ Support Vector Machine with Kernel Tricknon linear D.B(decision boundary) => 모델이 복잡 => 여전히 linear D.B 사용하면서도 해당 문제를 해결 => Kernel Trick​Q) Decision Boundary가 선형이 아니라면?A) 매핑함수를 이용해 입력벡터..

3-1/Data Mining 2024.05.11

6주차-Random Forest

Decision Tree:설명력 우수 (중요한feature 확인할 수 있다.-rootnode), 스케일링이 필요하지 않다. -Ensemble (앙상블): 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확도를 향상시키는 방법->다음 조건 만족시 Ensemble model은 Base model보다 성능이 좋다.-> Base model들이 서로 독립적 (diversity)-> Base model들이 무작위 예측을 수행하는 model보다 성능이 좋은 경우EX) Base model 각각 성능이 0.5(무작위) 보다는 좋아야 한다.=> Decision Tree는 Ensemble model의 base 모델로써 활용도 높다-> 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능-> ..

3-1/Data Mining 2024.05.11

5주차-Decision Tree

Decision Tree (의사결정나무): 데이터에 내제되어 있는 패턴을 변수의 종합으로 나타내는 예측/ 분류 모델을 Tree형태로 만든 것 Data => Algorithm => Model(Output) ->데이터를 2개 혹은 그 이상의 부분집합으로 분할 (데이터가 균일해지록 분할)->분류(Classification): 비슷한 범주(impurity낮다)를 갖고 있는 관측치끼리 모음->예측(Regression): 비슷한 수치(분산 낮다)를 갖고 있는 관측치끼리 모음->끝마디의 수만큼의 분류 규칙을 가진다.-Regression Tree-> Leaf node: 5개 -> 데이터를 m개로 분할-> 최상의 분할은 다음 비용함수(cost function)를 최소로 할 때 얻어짐-> 각 분할에 있는 y값들의 평균으로..

3-1/Data Mining 2024.05.11

4주차-Linear Models

-Deterministic: 확정적인 관계, X variable만으로 Y variable을 전부 표현-Stochastic: 확률적인 관계, X variable과 error로 Y variable을 표현 Linear Regression: 입력 변수 X와 출력 변수 Y의 평균 사이의 관계를 나타내는 직선을 찾는다.-Assumption of error1) 정규화 2) 비편향성 3) 등분산성 4) 독립성 -Parameter 찾기Linear regression + regularization-Regularized regression -> 만약 어떤 특정한 w의 값에 따라서 모델의 추론 값이 크게 달라진다면 variance가 높아진다. 1. Linear regression2. Ridge regression (L2 re..

3-1/Data Mining 2024.05.11