AIFFEL Life

[Day9] 웹을 긁어 자연어처리 해보자

nevermet 2020. 8. 26. 18:04

뭔가 웹 데이타를 긁어다가 모아 놓고 분석을 하고 싶다면 알아야 할 사항들에 대해서 정리해 봅니다. 먼저 html이 무엇인지 알긴 알아야 겠지요?

- html이란? - html의정의: youtu.be/ZeBsrkPq5dM

- html이란? - 태그: youtu.be/LNjLjGIN87U

예전에는 웹 페이지를 긁기 위해 크롤러를 직접 개발하거나 인터넷에서 누군가 만들어 놓은 코드를 다운받아 고쳐써야 했습니다. 요즘은 beautiful soup이 거의 통일시켜 버린 것 같습니다. ㅋ

- Beautiful Soup Documentation: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

 

Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation

Non-pretty printing If you just want a string, with no fancy formatting, you can call unicode() or str() on a BeautifulSoup object, or a Tag within it: str(soup) # ' I linked to example.com ' unicode(soup.a) # u' I linked to example.com ' The str() functio

www.crummy.com

- 코.알.못. 마케터도 크롤링하기#4. BeautifulSoup으로 정보가져오기: https://m.blog.naver.com/kiddwannabe/221177292446

 

코.알.못. 마케터도 크롤링하기#4. BeautifulSoup으로 정보가져오기

html 구조를 살펴보았다면, 이제는 실제로 html 내의 정보를 가져와야겠죠?​BeautifulSoup 이란 것을 사...

blog.naver.com

- [AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로: https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076

 

[AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로

주로 아이디어와 기술력으로 경쟁했던 자연어처리 인공지능(AI) 분야는 점차 컴퓨팅 파워 싸움으로 무게 추가 이동하고 있다. 모델이 대형화되면서 향상된 퍼포먼스 확보에 필요한 자금 규모도

news.naver.com

-  matplotlib에서ubuntu 한글 글꼴 설치, matplotlib: https://followers.tistory.com/26 

 

ubuntu 한글 글꼴 설치, matplotlib

- 글꼴 설치 $ sudo apt-get install fonts-nanum* : 나눔 이라는 단어가 포함된 글꼴 패키지 모두 설치 $ sudo fc-cache -fv : 글꼴 캐시 삭제 컴퓨터 부팅시 컴퓨터에 글꼴들을 서치하여 리스트를 캐시로 보관한

followers.tistory.com

- 01) 토큰화(Tokenization): https://wikidocs.net/21698

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

- [머신러닝] 나이브 베이즈(Naive Bayes) 분류 (2/2) - 베이즈 정리 (Bayes' Theorem) 쉽게 이해하기: youtu.be/3JWLIV3NaoQ

- [딥러닝 자연어처리] TF-IDF: youtu.be/meEchvkdB1U

- Learn the vocabulary dictionary and return document-term matrix: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.fit_transform

 

sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.23.2 documentation

 

scikit-learn.org

- F1 스코어: http://seb.kr/w/F1_%EC%8A%A4%EC%BD%94%EC%96%B4

 

F1 스코어 - IT용어위키

 

seb.kr

예전에 한글 형태소 분석기로 꼬꼬마가 유명했었던 것 같습니다. 근데 이제는? 머신러닝에 활용해 보니 너무 느려터졌다고? 일본에서 만든 일본어 형태소 분석기를 활용한 Mecab이 널리 쓰이고 있네요? 그리고 여러개의 한글 형태소 분석이 가능한 파이썬 패키지가 제공되고 있네요? 참 세상 많이 좋아졌습니다.

- KoNLPy tag: https://konlpy.org/ko/v0.5.2/api/konlpy.tag/ 

 

tag Package — KoNLPy 0.5.2 documentation

매개 변수: jvmpath -- The path of the JVM passed to init_jvm(). userdic -- The path to the user dictionary. This enables the user to enter custom tokens or phrases, that are mandatorily assigned to tagged as a particular POS. Each line of the dictionar

konlpy.org