본문 바로가기

cs231n 6강 Training NN part 2 activation function을 통해 nonlinearity을 줘야됨 gradient가 0이 되어버림batch normcross validation 을 통해 최적의 parameter을 찾아나가야됨파라미터 업데이트 하는 부분을 주목해보자단순한 gradient decentsgd는 매우 느림너무 느려서 실제상황에서는 잘 사용안함우리는 지금 저 빨간점이라 하자이 lossfunction이 수직으로는 매우 높고수평으로는 경사가 매우 얕은걸 확인할수있음이떄 경로을 생각해보자수직으로는 경사가 높기때문에 빨리수평으로는 천천히그러다보니 매우 느리게 업데이트됨첫번째로 볼께 모멤ㅌㅁ근본적인 차이는sgd같은경우 x을 직접 업데이트함momentum은 v을 줌v을 한번 업데이트하고v을 통해서 x을 업데이트함이건 마치 언덕에서.. 더보기
cs231n 5강 Training NN part 1 데이터가 엄청 많아야지만 학습시킬수있다?어쩌면 잘못된 생각일수있따.fine tuning을 사용하면 적은양의 데이터로도 학습 가능이미지넷에서 이미 학습된 가중치을 가져와서 우리 모델에 finetuning하면됨제일 왼쪽에 우리 모델에 있고 이 학습된 가중치을 공유해와서 가운데 그림처럼 우리의 데이터에 맞게 위에는 freezing 가중치 고정시켜두고제일 마지막 부분만 clisifier부분만 다시 학습시킴또는 우리가 가지고있는 데이터셋이 아주 작지않지만 충분하지 않으면 고정하는 레이어을 조금 더 줄이면 된다.아랫단 부분만 새로 학습시켜주는게 finetuning예을 들어 카페같은경우 이미 다양한 데이터셋에대해서 학습시킨 가중치들을 업로드 시켜두었음데이터을 처음부터 학습시킬 필요가 없고 공유되어있는 가중치들을 활용.. 더보기
cs231n 7강 CNN 기본적으로 입력을 이미지 처럼 32*32*3의 형태의 볼륨을 받음좀더 잘 살펴보면 5*5*3의 필터을 이미지 위에서 convolution을 시킨다 해서 convolutional layer라 합니다. 저기 밑에 써져있는게 정의라 볼수있는데 필터을 공간적으로 이미지위에 sllide하면서 dot product연산을 해나가는 의미 여기서 주의깊게 봐야할점은 비록 w, h는 32*32 5*5로 작은부분만 커버하지만 depth는 같다그래서 이 필터가 저 볼륜을 쭉 훑다. 계산해보면 저 필터로는 한번씩 훑을때마다 연산을 하고 이것을 75번하고 하나의 dot product을 하게됨.그리고 나서 이 하나의 포인트로 리턴을 함 이렇게 쫙 훝으면 28*28의 activation map이 나오게 됩니다.그래서 기억할건 one.. 더보기