-
[Day9] 웹을 긁어 자연어처리 해보자AIFFEL Life 2020. 8. 26. 18:04
뭔가 웹 데이타를 긁어다가 모아 놓고 분석을 하고 싶다면 알아야 할 사항들에 대해서 정리해 봅니다. 먼저 html이 무엇인지 알긴 알아야 겠지요?
- html이란? - html의정의: youtu.be/ZeBsrkPq5dM
- html이란? - 태그: youtu.be/LNjLjGIN87U
예전에는 웹 페이지를 긁기 위해 크롤러를 직접 개발하거나 인터넷에서 누군가 만들어 놓은 코드를 다운받아 고쳐써야 했습니다. 요즘은 beautiful soup이 거의 통일시켜 버린 것 같습니다. ㅋ
- Beautiful Soup Documentation: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation
Non-pretty printing If you just want a string, with no fancy formatting, you can call unicode() or str() on a BeautifulSoup object, or a Tag within it: str(soup) # ' I linked to example.com ' unicode(soup.a) # u' I linked to example.com ' The str() functio
www.crummy.com
- 코.알.못. 마케터도 크롤링하기#4. BeautifulSoup으로 정보가져오기: https://m.blog.naver.com/kiddwannabe/221177292446
코.알.못. 마케터도 크롤링하기#4. BeautifulSoup으로 정보가져오기
html 구조를 살펴보았다면, 이제는 실제로 html 내의 정보를 가져와야겠죠?BeautifulSoup 이란 것을 사...
blog.naver.com
- [AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로: https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076
[AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로
주로 아이디어와 기술력으로 경쟁했던 자연어처리 인공지능(AI) 분야는 점차 컴퓨팅 파워 싸움으로 무게 추가 이동하고 있다. 모델이 대형화되면서 향상된 퍼포먼스 확보에 필요한 자금 규모도
news.naver.com
- matplotlib에서ubuntu 한글 글꼴 설치, matplotlib: https://followers.tistory.com/26
ubuntu 한글 글꼴 설치, matplotlib
- 글꼴 설치 $ sudo apt-get install fonts-nanum* : 나눔 이라는 단어가 포함된 글꼴 패키지 모두 설치 $ sudo fc-cache -fv : 글꼴 캐시 삭제 컴퓨터 부팅시 컴퓨터에 글꼴들을 서치하여 리스트를 캐시로 보관한
followers.tistory.com
- 01) 토큰화(Tokenization): https://wikidocs.net/21698
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
- [머신러닝] 나이브 베이즈(Naive Bayes) 분류 (2/2) - 베이즈 정리 (Bayes' Theorem) 쉽게 이해하기: youtu.be/3JWLIV3NaoQ
- [딥러닝 자연어처리] TF-IDF: youtu.be/meEchvkdB1U
- Learn the vocabulary dictionary and return document-term matrix: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.fit_transform
sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.23.2 documentation
scikit-learn.org
- F1 스코어: http://seb.kr/w/F1_%EC%8A%A4%EC%BD%94%EC%96%B4
F1 스코어 - IT용어위키
seb.kr
예전에 한글 형태소 분석기로 꼬꼬마가 유명했었던 것 같습니다. 근데 이제는? 머신러닝에 활용해 보니 너무 느려터졌다고? 일본에서 만든 일본어 형태소 분석기를 활용한 Mecab이 널리 쓰이고 있네요? 그리고 여러개의 한글 형태소 분석이 가능한 파이썬 패키지가 제공되고 있네요? 참 세상 많이 좋아졌습니다.
- KoNLPy tag: https://konlpy.org/ko/v0.5.2/api/konlpy.tag/
tag Package — KoNLPy 0.5.2 documentation
매개 변수: jvmpath -- The path of the JVM passed to init_jvm(). userdic -- The path to the user dictionary. This enables the user to enter custom tokens or phrases, that are mandatorily assigned to tagged as a particular POS. Each line of the dictionar
konlpy.org
'AIFFEL Life' 카테고리의 다른 글
[Day11] 멍멍이 상인지 고양이 상인지 알아보기 (0) 2020.09.11 [Day10] 파이썬 더 알아보기 (0) 2020.08.26 [Day8] 파이썬 프로그래밍 개념을 좀 더 이해하자. (0) 2020.08.26 [Day8] 머신러닝을 이해하려면 통계를 알아야 한다. (0) 2020.08.26 [Day7] 글로 배우는 딥러닝... (0) 2020.08.14