뭔가 웹 데이타를 긁어다가 모아 놓고 분석을 하고 싶다면 알아야 할 사항들에 대해서 정리해 봅니다. 먼저 html이 무엇인지 알긴 알아야 겠지요?
- html이란? - html의정의: youtu.be/ZeBsrkPq5dM
- html이란? - 태그: youtu.be/LNjLjGIN87U
예전에는 웹 페이지를 긁기 위해 크롤러를 직접 개발하거나 인터넷에서 누군가 만들어 놓은 코드를 다운받아 고쳐써야 했습니다. 요즘은 beautiful soup이 거의 통일시켜 버린 것 같습니다. ㅋ
- Beautiful Soup Documentation: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 코.알.못. 마케터도 크롤링하기#4. BeautifulSoup으로 정보가져오기: https://m.blog.naver.com/kiddwannabe/221177292446
- [AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로: https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076
- matplotlib에서ubuntu 한글 글꼴 설치, matplotlib: https://followers.tistory.com/26
- 01) 토큰화(Tokenization): https://wikidocs.net/21698
- [머신러닝] 나이브 베이즈(Naive Bayes) 분류 (2/2) - 베이즈 정리 (Bayes' Theorem) 쉽게 이해하기: youtu.be/3JWLIV3NaoQ
- [딥러닝 자연어처리] TF-IDF: youtu.be/meEchvkdB1U
- Learn the vocabulary dictionary and return document-term matrix: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.fit_transform
- F1 스코어: http://seb.kr/w/F1_%EC%8A%A4%EC%BD%94%EC%96%B4
예전에 한글 형태소 분석기로 꼬꼬마가 유명했었던 것 같습니다. 근데 이제는? 머신러닝에 활용해 보니 너무 느려터졌다고? 일본에서 만든 일본어 형태소 분석기를 활용한 Mecab이 널리 쓰이고 있네요? 그리고 여러개의 한글 형태소 분석이 가능한 파이썬 패키지가 제공되고 있네요? 참 세상 많이 좋아졌습니다.
- KoNLPy tag: https://konlpy.org/ko/v0.5.2/api/konlpy.tag/
