최적화
-
[cs231n] 7강 신경망 훈련하기 (2/4, 더 멋진 최적화 (fancier optimization))AI 2021. 3. 23. 14:35
모멘텀을 약간 변형한 것이 있는데, 가끔 볼 수 있는 것이고, 네스테로프 (Nesterov) 가속 경사라고 불립니다. 때로는 네스테로프 모멘텀이라고 불리죠. 이건 순서를 조금 바꿉니다. 일반적인 SGD 모멘텀에서는, 현재 위치에서 경사를 추정하고 우리의 속도와 경사를 혼합할 것을 취합니다. 네스테로프 가속 경사에서는 약간 다른 것을 합니다. 여기서 여러분은 빨간 점에서 출발하고 속도가 여러분을 데려가는 방향으로 움직입니다. 그지점에서 경사를 평가하고 원점으로 돌아가서 그 둘을 섞습니다. 이건 좀 재밌는 해석이긴 하지만 여러분은 정보를 약간 더 섞는다고 생각할 수 있습니다. 만약 어러분의 속도의 방향이 약간 잘못되었다면, 그건 목표 지형의 약간 더 큰 부분으로부터 경사 정보를 통합시킬 수 있도록 해주는 거..
-
[cs224n] 2강 워드 벡터와 워드 센스 (2/5, 최적화 (optimization))AI 2021. 1. 17. 15:08
우리는 어떻게 이 단어 벡터들을 학습했는지에 대해 얘기하기 시작했습니다. 이 수업은 사실 최적화 시간은 아닌데, 최적화에 대해 알고 싶다면, 229에서 더 잘 배울 수 있죠. 스테판 보이드의 최적화 수업을 듣거나요. 이건 베이비 (baby) 최적화이고 우리 모두가 같은 이해를 하고 있다는 걸 확인하기 위한 거죠. 여기 3장의 슬라이드가 있습니다. 우리는 최소화하고 싶은 비용함수를 가지고 있고, 우리의 워드 벡터에 대해서 미분을 해서 비용함수의 경사를 계산했죠. 우리의 변수는 쎄타 (θ)였고, 우리가 하고 싶은 건, 우리가 작은 걸음으로 음의 경사 방향으로 걸어가면서, 이 공간의 언덕을 따라 내려가는 것이었습니다. 그걸 계속해서 우리 공간의 최소값으로 나아가고 싶죠. 물론 높은 차원의 공간에서는 이런 부드..
-
[cs231n] 3강 손실 함수와 최적화 (3/4, 최적화 / optimization)AI 2021. 1. 11. 18:39
최적화를 얘기할 때 저는 종종 걷는 것을 생각합니다. 거대한 계곡 주변을요. 어떤 얘기냐면, 여러분이 이 큰 계곡을, 다른 산과 계곡과 시내를 등등 걸어다니는 거죠. 이 풍경의 모든 지점은 W 파라미터의 어떤 세팅들에 해당합니다. 여러분이 여기의 작은 사람이고, 이 계곡을 돌아다니는 겁니다. 이 점들의 높이는 손실과 같고, W에 의해 발생하죠. 이 작은 사람으로서 해야 할 일은 이 풍경을 돌아다니면서, 어떻게든 이 계곡의 바닥을 찾는 것입니다. 이건 일반적으로 어려운 문제이죠. 만약 내가 정말 똑똑하다면, 내 손실 함수와 정규화 등등의 분석적 특징에 대해 열심히 생각해 보고, 어쩌면 최소화하는 것을 만들 수 있을 지도 모르겠지만요. 그건 일종의 마법처럼 이 계곡의 밑바닥으로 계속 순간이동하는 거죠. 그러..