attention
-
[cs231n] 10강 순환 신경망 (Recurrent Neural Network) (3/4, 이미지 캡셔닝 (image captioning))AI 2021. 4. 13. 15:36
저는 안드레이 (Andrej)와 이 논문을 몇 년전에 썼는데, 많은 이런 모델을 훈련시켰고 이 모델들의 브레인으로 들어가서 그것들이 무엇을 하고 있는지, 왜 그것들이 동작하는 지에 대해서 알아내려고 했죠. 그래서 우리는 이 순환 신경망 (recurrent neural network)들이 이 숨겨진 벡터들을 가지고 있고, 그 벡터는 매 시점마다 업데이트 되는 어떤 벡터라는 것을 알았죠. 그다음 우리는 이 벡터의 어떤 요소가 어떤 구문론적 해석가능한 의미를 가지고 있는 지를 알아 내려고 했습니다. 우리는 신경망 언어 모델을 훈련시켰는데, 이 문자 수준 (character level) 모델 중 하나를 이 데이타 셋 (data set)중의 하나에 대해서 했죠. 그리고 그 숨겨진 벡터 (vector) 내의 요소 ..
-
[Day61] Seq2Seq과 AttentionAIFFEL Life 2020. 12. 25. 18:20
오늘은 자연어 심화과정 (일명 Going Deeper) 중 이론을 공부하는 시간이었는데요. 심화과정은 이론 7시간 + 실습 7시간으로 구성되어 있습니다. 그중 Seq2Seq과 Attention에 대해서 배웠습니다. Transformer를 이해하기 위한 이론적인 내용이라고 할 수 있겠죠? 아래에 참고할 만한 내용들을 공유합니다. 1. 언어모델(Language Model) ratsgo.github.io/from%20frequency%20to%20semantics/2017/09/16/LM/ 언어모델(Language Model) · ratsgo's blog 이번 글에서는 유니그램 모델(unigram model)을 중심으로 통계적 언어모델(Statistical Language Model, 언어모델)에 대해 살펴보..