딥 러닝
-
[cs224n] 2강 워드 벡터와 워드 센스 (3/5, 동시발생 (co-occurrence count))AI 2021. 1. 17. 18:05
이건 알고리즘이죠. 여러분이 이 말뭉치를 거치면서 자리마다 움직이며 단어 예측을 하는 거고, 여러분은 파라미터를 업데이트하고 뭔가를 학습하는 거죠. 우리가 본 예제를 보면 동작하는 것 같은데요. 이건 약간 이상하지 않나요? 우리는 큰 덩어리의 데이타가 있고, 저는 통계를 생각하고 있는데요. 그 데이타를 모아서, 여기서 여러분들이 뭔가 할 수 잇는 것이 있을 것 같네요. 여기 단어가 있고, 예를 들어 바나나요. 바나나 문맥에서 어떤 단어가 나타나는지 보죠. 그걸 모두 세어서 그걸 예측에 이용하는 거죠. 분산 표현 테크닉을 포함해서 그런 종류 방법들이 전통적으로 쓰였는데, 잠깐 얘기하자면, 여러분은 잘 교육받아서 망 (net)이 시작하기전인 2013년 전에 일어난 일을 전혀 모르지는 않겠죠. 자, 우리가 할..
-
[cs224n] 2강 워드 벡터와 워드 센스 (2/5, 최적화 (optimization))AI 2021. 1. 17. 15:08
우리는 어떻게 이 단어 벡터들을 학습했는지에 대해 얘기하기 시작했습니다. 이 수업은 사실 최적화 시간은 아닌데, 최적화에 대해 알고 싶다면, 229에서 더 잘 배울 수 있죠. 스테판 보이드의 최적화 수업을 듣거나요. 이건 베이비 (baby) 최적화이고 우리 모두가 같은 이해를 하고 있다는 걸 확인하기 위한 거죠. 여기 3장의 슬라이드가 있습니다. 우리는 최소화하고 싶은 비용함수를 가지고 있고, 우리의 워드 벡터에 대해서 미분을 해서 비용함수의 경사를 계산했죠. 우리의 변수는 쎄타 (θ)였고, 우리가 하고 싶은 건, 우리가 작은 걸음으로 음의 경사 방향으로 걸어가면서, 이 공간의 언덕을 따라 내려가는 것이었습니다. 그걸 계속해서 우리 공간의 최소값으로 나아가고 싶죠. 물론 높은 차원의 공간에서는 이런 부드..
-
[cs224n] 2강 워드 벡터와 워드 센스 (1/5, 워드 벡터와 워드2벡 (word vector, word2vec))AI 2021. 1. 16. 15:31
지난 시간 끝날때, 파이썬 노트북으로 워드 벡터를 할 수 있는 걸 보여줬죠. 시간이 모자랐는데요. 마지막 부분을 먼저 몇 분 더 보겠습니다. GloVe 워드 벡터를 더 얘기해 보죠. 벡터 공간에서 기본적인 유사성을 보여주는 결과들이 있어서 비슷한 단어 찾기에 유용하죠. 더 깊고 심오한 방법으로 의미를 잡아내기도 합니다. 공간속에 어떤 의미를 갖는 지점으로 가리키는 방향이 있고, 그래서, 어떤 방향을 가리키면, 이게 그 경우고, 다른 방향을 가리키면, 이건 그 나라의 수도라는 등 여러 다른 의미들이 이 공간에서 인코딩 될 수 있다는 거죠. 이 비유 (analogy)를 테스트 방법으로사용하는 건데요. 아이디어는 쌍으로 된 단어들을 사용해서요. 왕과 남자 같은거죠. 왕의 벡터가 있고, 남자 벡터가 있다면, 우..
-
[cs231n] 3강 손실 함수와 최적화 (4/4, 경사하강 / Gradient Descent)AI 2021. 1. 12. 15:40
일단 우리가 경사를 어떻게 계산하는지 알게 되면, 우리는 수퍼 간단한 알고리즘에 도달하게 됩니다. 3줄 정도죠. 그러나 우리가 어떻게 이 최고로 큰 가장 복잡한 딥러닝 알고리즘을 훈련시키는지에 대한 심장에 해당하죠. 그게 경사 하강 (gradient descent)입니다. 경사 하강은 먼저 우리의 W를 임의 (random)로 초기화하고, 참 (true)일 동안 우리의 손실과 경사를 계산합니다. 그리고 우리의 가중치를 경사방향의 반대로 업데이트하죠. 왜냐면 경사는 함수의 가장 크게 증가하는 방향을 가리키니까요. 그러므로 음의 (minus) 경사는 가장 크게 감소하는 방향을 가리키죠. 그래서 우리가 마이너스 경사의 방향으로 작은 걸음을 취할 겁니다. 그리고 이걸 영원히 반복하면, 결국 여러분의 망은 수렴할 ..
-
[cs231n] 3강 손실 함수와 최적화 (2/4, 정규화 (regularization)와 소프트맥스 (softmax))AI 2021. 1. 11. 18:25
그건 여기 써 있는 것 때문인데요. 데이타에 관해 손실만 썼는데, 우리의 학습 데이터에 맞는 분류기에 대한 W를 찾아야 한다고 얘기했죠. 하지만 실제로, 학습 데이타에 맞추는 것에는 그렇게 관심이 없습니다. 머신러닝의 전체적인 요점은 학습 데이타를 사용해서 어떤 분류기를 찾는 건데, 그리고 그걸 테스트 데이타에 적용하는 거죠. 그래서 우리는 훈련 데이타 성능에 관심이 없고 테스트 데이타에 대한 분류기 성능이 중요합니다. 결과적으로, 우리가 분류기에게 얘기하는 것은, 훈련 데이타에 핏 (fit)하라는 건데, 어떤 경우 가끔 이상한 상황으로 우리를 몰고 갑니다. 분류기가 비직관적인 행동하는 거죠. 그래서 구체적이고 표준적인 예는 선형 분류기가 아닌, 약간 더 일반적인 머신러닝 개념에 대해 얘기할 겁니다. 이..
-
[cs231n] 2강 이미지 분류 (3/4, K-최근접 이웃/ K-Nearest Neighbors)AI 2021. 1. 5. 19:59
손가락처럼 튀어 나온 이런 것들이 이 알고리즘을 일반화하고 싶은 동기를 유발합니다. 그래서 나온 것이 K-최근접 이웃 알고리즘이죠. 하나의 최근접 이웃을 찾기 보다는, 약간 더 멋진 걸 하는데, 거리 메트릭에 따라 K개의 최근접 이웃을 찾아서 투표를 합니다. 이웃중에서요. 그 다음에 가장 많은 표를 가진 이웃이 예측값이 됩니다. 이걸 좀 더 복잡하게 하는 방법도 생각할 수 있죠. 거리에 웨이트를 주는 것 등을 생각할 수 있는데, 가장 간단한게 꽤 잘 됩니다. 그냥 최다 득표를 선택하면 됩니다. 여기 앞에서 본 것과 같은 점들의 집합이 있는데 K가 1인 분류기와, K가 3일때, K가 5일때가 있습니다. 3일때를 보면, 녹색 안에 있는 이상한 노란 점이 그 주변 영역을 노란색으로 만들지 않습니다. 가운데 녹..
-
[cs231n] 2강 이미지 분류 (2/4, 최근접 이웃 / nearest neighbors)AI 2021. 1. 4. 19:55
이미지 분류를 위한 API가 뭔지 생각해 보면, 파이썬으로 이런 메소드를 아마 작성할 겁니다. 이미지를 받아서 어떤 미친 마법을 부려서 고양이인지 개인지 아무것도 아닌지 레이블을 뱉어내는 거죠. 어떤 명확한 방법은 없습니다. 알고리즘 수업을 듣고 있는 거라면, 정렬하고, 컨벡스 헐 (Convex Hull) 계산하거나 RSA 암호화하거나 하는, 어떤 알고리즘을 작성할 수 있을 겁니다. 이걸 하기 위해서, 일어나야 하는 여러 단계를 나열하죠. 물체를 인식하기 위해서, 혹은 고양이나 이미지를 인식하기 위해서는 명확한 명시적 알고리즘이 없습니다. 이런 직관적인 감각을 만드는 혹은 어떻게 이런 객체를 인식할지에 대한 알고리즘은 없죠. 이게 챌린징한데, 만약 처음 프로그램밍하는 날, 이런 펑션을 써야 한다면 대부분..