AIFFEL Life

[Day57] 워드 임베딩

nevermet 2020. 12. 22. 18:32

오늘은 워드 임베딩에 관한 유용한 글들을 공유합니다.

 

1. [딥러닝 자연어처리] Bag of Words

www.youtube.com/watch?v=dKYFfUtij_U&feature=youtu.be

2. [딥러닝 자연어처리] TF-IDF

www.youtube.com/watch?v=meEchvkdB1U&feature=youtu.be

3. 유니코드 한글 자모

www.unicode.org/charts/PDF/U3130.pdf

4. 유니코드 한글 음절

www.unicode.org/charts/PDF/UAC00.pdf

5. Okt Class

konlpy.org/en/latest/api/konlpy.tag/#okt-class

 

tag Package — KoNLPy 0.5.2 documentation

Parameters: jvmpath – The path of the JVM passed to init_jvm(). userdic – The path to the user dictionary. This enables the user to enter custom tokens or phrases, that are mandatorily assigned to tagged as a particular POS. Each line of the dictionary

konlpy.org

6. class collections.Counter([iterable-or-mapping])

docs.python.org/3/library/collections.html#collections.Counter

 

collections — Container datatypes — Python 3.9.1 documentation

collections — Container datatypes Source code: Lib/collections/__init__.py This module implements specialized container datatypes providing alternatives to Python’s general purpose built-in containers, dict, list, set, and tuple. namedtuple() factory f

docs.python.org

7. 빅데이터: 큰 용량의 역습 – 차원의 저주

thesciencelife.com/archives/1001

 

빅데이터: 큰 용량의 역습 – 차원의 저주 (Curse of dimensionality)

데이터에서 모델을 학습할 때 독립적 샘플이 많을수록 학습이 잘 되는 반면 차원이 커질 수록 학습이 어려워지고 더 많은 데이터를 필요로 합니다.

thesciencelife.com

8. 워드 임베딩(Word Embedding)

wikidocs.net/33520

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

9. 워드 벡터 데모

word2vec.kr/search/

 

Korean Word2Vec

ABOUT 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘은 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이

word2vec.kr

10. [딥러닝 자연어처리] Word2Vec

www.youtube.com/watch?v=sY4YyacSsLc&feature=youtu.be

11. Embedding Projector

projector.tensorflow.org/

 

Embedding projector - visualization of high-dimensional data

Visualize high dimensional data.

projector.tensorflow.org

12. 한국어를 위한 어휘 임베딩의 개발

brunch.co.kr/@learning/8

 

한국어를 위한 어휘 임베딩의 개발 -2-

한국어 자모의 FastText의 결합 | 이 글은 Subword-level Word Vector Representations for Korean (ACL 2018)을 다룹니다. 두 편에 걸친 포스팅에서는 이 프로젝트를 시작하게 된 계기, 배경, 개발 과정의 디테일을 다

brunch.co.kr

13. SVD와 PCA, 그리고 잠재의미분석(LSA)

ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/06/pcasvdlsa/

 

SVD와 PCA, 그리고 잠재의미분석(LSA) · ratsgo's blog

이번 포스팅에서는 차원축소(dimension reduction) 기법으로 널리 쓰이고 있는 특이값분해(Singular Value Decomposion)와 주성분분석(Principal Component Analysis)에 대해 알아보도록 하겠습니다. 마지막으로는 이

ratsgo.github.io