Knowledgw Distillation- "지식을 증류한다"라는 의미- 상대적으로 성능이 뛰어나고 용량이 큰 모델(teacher)에서 상대적으로 용량이 작은 모델(student)로 지식을 추출하는 방법 Cross Entropy & Entropyp: 실제 확률 분포 / q: 모델의 예측 확률 분포Cross Entropy> H(p, q)Entropy> H(p)EX) KL Divergence(Kullback-Leibler divergence)(KL div)- 두 확률 분포 p와 q간의 차이를 측정하는 방법성질>1. 비음수성- 두 분포가 같을 때만 0이 된다.2. 비대칭성- KL div는 대칭적이지 않다.KL div Loss> Soft LabelHard Label- 정확한 클래스에만 확률 1을 할당하고 나머지..