3-1/Deep Learning 12

14주차-Natural Language Processing

Word Embedding단어를 밀집 벡터의 형태로 표현하는 방법Embedding vector이 밀집벡터를 word embedding 과정을 통해 나온 결과Neural language model Context/ Target Skip-grams하나의 단어에서 여러 단어를 예측하는 방법. 즉, 중심단어에서 주변 단어를 예측하는 방식 Negative sampling-학습 과정에서 전체 단어 집합이 아니라 일부 단어 집합에만 집중할 수 있도록 하는 방법.-주변 단어들을 긍정(positive), 랜덤으로 샘플링된 단어들을 부정(negative)으로 레이블링-context와 word의 관계에 있어서, 1개의 양성(positive) target을 제외한 나머지 text에 대해서는 음성(negative)으로 설정  S..

3-1/Deep Learning 2024.06.07

13주차-Recurrent Neural Networks

Sequence data EX) NotataionSeqence data(), Tx, Ty(x와 y에 대한 시퀸스 데이터 길이) Q) standard network(일반적인 신경망)으로는 텍스트 훈련이 잘 되진 않는다. 이유는?A) 1. 입력과 출력의 길이가 training data마다 다르다.     2. 텍스트의 서로 다른 위치에서 학습된 feature가 공유되지 않는다. RNN(Recurrent Neural Network)입력과 출력을 시퀸스 단위로 처리하는 시퀸스 모델은닉층의 노드에서  활성화 함수를 통해 나온 결과값을 출력층 방향으로 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보냄. 각 시점 단계에서 파라미터를 공유한다. (Wax, Waa, Wya)Notation: W는 가중치, a는 산..

3-1/Deep Learning 2024.06.01

12주차-Object Detection

classification with localization VS Detection 이미지에서 찾고자 하는 대상이 단일/ 복수 Classification with localization-좌상단 (0,0)/ 우하단(1,1)- 직사각형 중간점 (bx,by)- 높이 (bh)/ 너비(bw)- Pc: 이미지에 객체가 있는지 여부를 저장 (배경이면 0, 객체가 있으면 1) Landmark detection여러개의 특징점을 포함하는 레이블 training set를 만들어 신경망으로 하여금 어디에 특징점들이 있는지를 말할 수 있게 학습시킬 수 있다. (훈련시키고자 하는 모든 이미지에서 사람이 지정한 특징점의 정의는 같아아 함.) Sliding windows detectionConvolution net 안에 인식 이미지 ..

3-1/Deep Learning 2024.05.30

10주차-Deep CNN models

LeNet-5-해당 신경망은 요즘에 비하면 상대적으로 적은 변수를 가진다. - sigmoid, tanh O/ ReLu X- padding X- 60k parameters=> 높이(nh), 너비(nw)는 감소/ 채널(nc)은 증가 AlexNet- LeNet에 비해서 굉장히 많은 변수를 가진다. - ReLu를 활성화 함수로 사용- padding O (same)- 60M parameters- multipul GPU를 사용, Local response normalization VGG-16- AlexNet의 복잡한 구조에 비해 VGG Net은 더 간결한 구조 - 모든 합성곱 연산은 3X3 필터, padding은 2, stride는 1, 2X2 max pooling- ~138M parameters (네트워크 크기가..

3-1/Deep Learning 2024.05.15

9주차-ML Strategy

Bayes optimal error모델의 이론상 가능한 최저의 오차값. overfitting이 되지 않는 이상 이 값을 뛰어 넘을 수 없다.이론적으로 가능한 최고의 정확도 값알고리즘의 성능(보라색 선)은 시간이 흐르더라도 bayes optimal error에는 도달할 수 없다. Q) human level performance에 인접하면 성능이 떨어지는 이유는?A) 1. human level perfermance와 bayes optimal error의 차이가 크게 안나는 경우    2. human level perfermance가 나오지 않을때 사용하는 성능향상 기법을 쓸 수 없기 때문 avoidable bias: bayes error와 training error간의 오차(error)차이variance: ..

3-1/Deep Learning 2024.05.11

7주차-Convolutional Neural Networks

Convolution Neural NetworksVertical(세로) edgePadding: 가장자리 정보는 덜 이용되고, 가운데 정보는 많이 사용이미지에 경계선을 덧대는 방법-Valid: padding을 진행하지 않음(p=0) (n-f+1) X (n-f+1) -same: padding을 진행(n+2p-f+1) X (n+2p-f+1)p=f-1/2​Strided(보폭) convolution: 종과 횡으로 이동하는 거리-Max/Average pooling-> 신경망이 깊어질수록 nh,nw는 줄어들지만, nc는 커진다.=> max pooling layer에는 parameter가 없다.convolution layer는 parameter가 상대적으로 적고, FC layer가 많다.activation size는 ..

3-1/Deep Learning 2024.05.11

6주차-Hyperparameters and Batch Norm

Hyper parameters중요도 순: alpha(학습률) > beta β, hidden units, mini-batch size > layer, learning rate decay*Adam Optimization의 하이퍼 파라미터인 beta_1, beta_2, epsilonϵ은 값을 변경할 필요 없이, 대부분 기본값을 사용하기 때문에 수치를 변경할 필요가 적다. 어떤 하이퍼 파라미터가 더 중요한지 미리 알아내기 어렵기 때문에, 격자판 형식(grid)으로 샘플링하는 것보다는 무작위로(random) 샘플링하는 방법이 더 많은 하이퍼 파라미터 값을 탐색, 더 광범위하게 학습을 진행 -Coarse to find: 다음 공간에 대해 밀도를 높여서 샘플링 진행Exponentially weighted averag..

3-1/Deep Learning 2024.05.11

5주차-Optimization Algorithms

Batch vs mini-batch gradient descentBatchMini-batchmini-batch size:1. small training set(m2. Typical mini-batch size: 64, 128, 256, 512, 10243. mini-batch가 cpu, gpu 메모리에 들어가도록 하는 것이 중요 Exponentially weighted averages (지수 가동 이동 평균법)베타 높이면 (초록색 그래프) 선이 약간 오른쪽으로 이동베타 줄이면 (노란색 그래프) 선 내에서 더 많은 진동이 발생Bias correction Gradient descentMomentumRMSpropAdom optimization algorithmMomentum과 RMSprop를 더해서 만든다.L..

3-1/Deep Learning 2024.05.11

4주차-Practical Aspects of Deep Learning

Train/ dev(development)/ test setsdev set과 test set의 분포를 동일하게 하는 것이 좋다.test set없이 dev set만 있어도 상관X​Bias/ Variance1) Bias(편향)예측값과 실제 정답과의 차이의 평균예측값이 실제 정답과 얼만큼 떨어져 있는지 나타냄클수록 예측값과 정답 값 간의 차이가 크다. 2) Variance(분산)다양한 데이터 셋에 대하여 예측값이 얼만큼 변화할 수 있는지에 대한 양, 얼만큼 예측값이 퍼져서 다양하게 출력될 수 있는 정도 Regularizationoverfitting을 방지(variance를 줄이는)방법으로 데이터를 늘리는 방법도 있지만, 대용량의 데이터 수준이 어려울 경우 regularization으로 해결 가능 1) Logi..

3-1/Deep Learning 2024.05.11

3주차-Deep Neural Networks

Active Function1) Sigmoid -> 0~1사이 값 반환2) Tanh -> 데이터 평균 0이 되도록 함, -1~1사이 값 반환  보통 tanh가 sigmoid보다 우수/ 예외) 이진분류에서는 sigmoid가 우수​3) ReLU -> 기울기 = 1  4) Leaky ReLU => 음수 쪽 기울기 = 0.01 Deep neural network Forward and Backward function캐시(Cache): 순방향 전파 중 계산된 변수를 해당 역방향 전파 단계로 전달하는데 사용. 도함수를 계산하기 위한 역방향 전파에 유용한 값 포함.​

3-1/Deep Learning 2024.05.11