분류 전체보기 197

02. 데이터 이해 및 전처리

시계열 데이터- 시계열 데이터: 연속된 시간 동안 순차적으로 측정한 데이터- 일반적인 데이터는 서로 독립적인데 반해, 시계열 데이터는 데이터 간에 시간적으로 상관관계가 있다.- 시계열 데이터를 분석하려면 과거의 데이터들이 미래에 미치는 영향의 패턴을 알아내는 것이 중요EX) 일년 동안의 기온, 주가, 자연어, 비디오- 시계열 데이터의 이용 EX)Many to many- 기온 예측- 번역One to many- 이미지 캡셔닝Many to one- 자동 완성- 출력 전압 예측  전압 파형 데이터- 회로에 인가한 입력 전압과 그에 따른 5가지 출력 전압 값을 picosecond 단위로 기록=> 훈련데이터: 452,283개/ 테스트 데이터: 193,836개 - txt파일 형태로 저장=> ,로 구분/ 시간, 입력 ..

01. 프로젝트 소개

프로젝트 소개프로젝트 목표- 회로에 인가한 입력 전압 파형(picosecond 단위)으로부터 5가지 출력 전압 파형 예측- 일반적으로 Buffer 회로 시뮬레이션을 통해 출력 파형의 특성을 확인함.   (실험자원이나 시간제약으로 인해 대량의 데이터를 처리하기에 어려움)- 딥러닝을 이용하여 시계열 데이터의 회귀 모델을 학습하여, 대량의 데이터를 효율적으로 처리 가능= Jupyter notebook + pandas, Numpy, matplotlib, PyTorch, sckit learn 활용  데이터 소개: 사용하는 전압 파형 데이터 소개- 회로에 인산한 전압 파형과 5가지 출력 전압 파형을 picosecond 단위로 기록 => 시계열 데이터!- 시계열 데이터: 시간에 걸쳐 순차적으로 기록되고 배열되는 데이..

순환 신경망(RNN, LSTM)

RNN(Recurrent Neural Network)- sigmoid: 기울기 작아 더 빨리 "0"으로 소실. (Vanishing Gradient)- tanh: "0"으로 가는건 같지만 기울기 커 sigmid보단 느리게 "0"으로 간다.  Vanilla RNN: 초기의 RNN 형태RNN 모델의 가중치는 모든 Cell에 대해 동일 - Back Propagation Through Time(BPTT)- 1보다 작은 값들이 많이 곱해진다,  "0"으로 update=> 단 주기에는 괜찮지만 주기가 길어지면 "Vanishing/ Exploding Gradient"문제가 발생=> 결국 학습이 잘 되지 않는다.  LSTM(Long Short Term Memory)- (Cell) State: 장기기억- (Hidden) ..

라이브러리 목록&시계열 데이터 전처리&정규화, 표준화

라이브러리 목록Pandas: 파이썬 데이터 분석- 파일 데이터 로드- 데이터 조회, 필터링- 날짜 형식 지정Numpy: 통계- 선형대수- 데이터 통계량matplotlib: 시각화- 시계열 데이터 시각화- 차트 생성PyTorch: 딥러닝- 시계열 데이터 예측 모형- 훈련 및 검증- 추론scikit learn: 머신러닝/ 전처리- 데이터 정규화- 데이터 셋 분할Streamlit: 웹 시각화 대시보드- 모델 배포 - 대시보드 생성 데이터 전처리데이터 스케일링: 정규화/ 표준화=> 특성(feature)별 동일한 기준 적용/ 모델이 학습할 때 더욱 안정적인 학습정규화(Normalization): 0~1사이로 조정표준화(Standardization): 평균 0, 분산 1 조정from sklearn.preproces..

14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

MAP(Maximun a posterior): 사후확률주어진 데이터와 사전 정보(prior information)를 모두 고려하여 사후 확률(posterior probability)을 최대화하는 파라미터 값을 찾는 방법.데이터 D가 주어졌을 때 가설 h의 사후 확률.MLE(Maximun Likelihood Estimate): 우도예측주어진 데이터가 관찰될 확률을 최대화하는 파라미터 값을 찾는 방법.likelihood 항은 데이터의 양 N에 따라 지수적으로 증가하고, 사전 확률은 일정하게 유지된다.=> 데이터가 많아질수록 MAP추정은 MLE추정에 수렴하게 된다. 즉, 충분한 데이터가 있는 경우, 데이터는 사전 확률(prior)의 영향을 압도하게 된다.  정리MAP 사전 확률을 고려하여 최대화MLE사전 확률..

3-1/Data Mining 2024.06.15