-
[Day52] 문서의 유사도를 구하는 방법AIFFEL Life 2020. 12. 21. 13:15
오늘은 문서가 서로 얼마나 유사한지 알아보는 방법에 대해 배워봤습니다. 코사인 유사도, TF-IDF에서부터 LDA까지... 이해하기 좀 어렵지만 알아두면 유용할 것 같습니다.
1. Cosine Similarity – 코사인 유사도
Cosine Similarity - 코사인 유사도 - 토탈 데이터 사이언스 TOTAL DATA SCIENCE
코사인유사도,Cosine Similarity,벡터 내적
euriion.com
2. TF-IDF 문서 유사도 측정
3. 머신러닝 - 19. 고유값(eigenvalue), 고유벡터(eigenvector), 고유값 분해(eigen decomposition)
bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-19-%ED%96%89%EB%A0%AC?category=1057680
머신러닝 - 19. 고유값(eigenvalue), 고유벡터(eigenvector), 고유값 분해(eigen decomposition)
이번 시간에는 고유값과 고유 벡터, 그리고 고유값 분해에 대해 알아보겠습니다. 참고로 고유값, 고유 벡터를 이해하기 위해서는 행렬의 몇 가지 종류에 대해 알고 있어야 합니다. 본 글의 맨 아
bkshin.tistory.com
4. 특잇값 분해
datascienceschool.net/02%20mathematics/03.04%20%ED%8A%B9%EC%9E%87%EA%B0%92%20%EB%B6%84%ED%95%B4.html
3.4 특잇값 분해 — 데이터 사이언스 스쿨
정방행렬은 고유분해로 고윳값과 고유벡터를 찾을 수 있었다. 정방행렬이 아닌 행렬은 고유분해가 불가능하다. 하지만 대신 고유분해와 비슷한 특이분해를 할 수 있다. 1차원 근사 2차원 평면
datascienceschool.net
5. fit_transform(X, y=None)
sklearn.decomposition.TruncatedSVD — scikit-learn 0.23.2 documentation
scikit-learn.org
6. LDA Topic Modeling
lettier.com/projects/lda-topic-modeling/
Latent Dirichlet Allocation Topic Modeling by David Lettier
lettier.com
7. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
8. LDA 모형
55. 텍스트 데이터 분석 [토픽 모델] - (4) LDA 모형
serviceapi.nmv.naver.com
9. Konlpy install
Installation — KoNLPy 0.5.2 documentation
Ubuntu Supported: Xenial(16.04.3 LTS), Bionic(18.04.3 LTS), Disco(19.04), Eoan(19.10) Install dependencies # Install Java 1.8 or up $ sudo apt-get install g++ openjdk-8-jdk python3-dev python3-pip curl Install KoNLPy $ python3 -m pip install --upgrade pip
konlpy.org
'AIFFEL Life' 카테고리의 다른 글
[Day54] 뉴스 카테고리 다중 분류 (0) 2020.12.22 [Day53] 애자일 소다와 흐린 사진을 선명하게 (0) 2020.12.21 [Day51] 뉴스 요약봇 만들기 (0) 2020.12.21 [Day51] 슬로우 페이퍼 (Slow Paper) (0) 2020.12.21 [Day50] 단어 사전 만들기 (0) 2020.12.16