AIFFEL Life

[Day52] 문서의 유사도를 구하는 방법

nevermet 2020. 12. 21. 13:15

오늘은 문서가 서로 얼마나 유사한지 알아보는 방법에 대해 배워봤습니다. 코사인 유사도, TF-IDF에서부터 LDA까지... 이해하기 좀 어렵지만 알아두면 유용할 것 같습니다.

 

1. Cosine Similarity – 코사인 유사도 

euriion.com/?p=548

 

Cosine Similarity - 코사인 유사도 - 토탈 데이터 사이언스 TOTAL DATA SCIENCE

코사인유사도,Cosine Similarity,벡터 내적

euriion.com

2. TF-IDF 문서 유사도 측정

youtu.be/Rd3OnBPDRbM

3. 머신러닝 - 19. 고유값(eigenvalue), 고유벡터(eigenvector), 고유값 분해(eigen decomposition)

bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-19-%ED%96%89%EB%A0%AC?category=1057680

 

머신러닝 - 19. 고유값(eigenvalue), 고유벡터(eigenvector), 고유값 분해(eigen decomposition)

이번 시간에는 고유값과 고유 벡터, 그리고 고유값 분해에 대해 알아보겠습니다. 참고로 고유값, 고유 벡터를 이해하기 위해서는 행렬의 몇 가지 종류에 대해 알고 있어야 합니다. 본 글의 맨 아

bkshin.tistory.com

4. 특잇값 분해

datascienceschool.net/02%20mathematics/03.04%20%ED%8A%B9%EC%9E%87%EA%B0%92%20%EB%B6%84%ED%95%B4.html

 

3.4 특잇값 분해 — 데이터 사이언스 스쿨

정방행렬은 고유분해로 고윳값과 고유벡터를 찾을 수 있었다. 정방행렬이 아닌 행렬은 고유분해가 불가능하다. 하지만 대신 고유분해와 비슷한 특이분해를 할 수 있다. 1차원 근사 2차원 평면

datascienceschool.net

5. fit_transform(X, y=None)

scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html#sklearn.decomposition.TruncatedSVD.fit_transform

 

sklearn.decomposition.TruncatedSVD — scikit-learn 0.23.2 documentation

 

scikit-learn.org

6. LDA Topic Modeling

lettier.com/projects/lda-topic-modeling/

 

Latent Dirichlet Allocation Topic Modeling by David Lettier

 

lettier.com

7. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)

wikidocs.net/30708

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

8. LDA 모형

serviceapi.nmv.naver.com/flash/convertIframeTag.nhn?vid=A008B9E1EAFC02C99F92928155487839090E&outKey=V1210ad4156cf64ce0c6a3e18cecaae499f6528784c999ca6541c3e18cecaae499f65&width=544&height=306

 

55. 텍스트 데이터 분석 [토픽 모델] - (4) LDA 모형

 

serviceapi.nmv.naver.com

9. Konlpy install

konlpy.org/en/latest/install/

 

Installation — KoNLPy 0.5.2 documentation

Ubuntu Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10) Install dependencies # Install Java 1.8 or up $ sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl Install KoNLPy $ python3 -m pip install --upgrade pip

konlpy.org