AIFFEL Life

[Day6] Scikit Learn으로 인공지능을 구현해 보자

nevermet 2020. 8. 14. 16:01

Scikit Learn은 파이썬에서 데이터 분석을 위해 만들어진 툴이다. 배경을 좀 알아보니 구글 출신 엔지니어가 만들기 시작한 프로젝트이고, 지금 버전이 0.23이라고해서 베타 버전 아니야? 라고 생각할 수 있지만 매우 안정적이니 마음 놓고 써도 된다고 한다.

1. Scikit Learn에서 기본적으로 데이터 분석을 연습해 보라고? 제공하는 데이터들이 그 데이터 셋에 대해서는 다음 링크를 참조하면 된다.

https://scikit-learn.org/stable/datasets/index.html

 

7. Dataset loading utilities — scikit-learn 0.23.2 documentation

The 20 newsgroups dataset comprises around 18000 newsgroups posts on 20 topics split in two subsets: one for training (or development) and the other one for testing (or for performance evaluation). The split between the train and test set is based upon a m

scikit-learn.org

2. 데이터 분석 알고리즘 또한 Scikit Learn에서 제공하고 있는데, 의사결정 나무 (Decision Tree)를 사용하기 전에 다음 글을 미리 읽어보면 이해하는데 도움이 된다. (전에 세미나로 오셨던 분의 ratsgo's blog이다.)

https://ratsgo.github.io/machine%20learning/2017/03/26/tree/

 

의사결정나무(Decision Tree) · ratsgo's blog

이번 포스팅에선 한번에 하나씩의 설명변수를 사용하여 예측 가능한 규칙들의 집합을 생성하는 알고리즘인 의사결정나무(Decision Tree)에 대해 다뤄보도록 하겠습니다. 이번 글은 고려대 강필성 �

ratsgo.github.io

3. 의사결정 나무(!)에서 한단계 더 진보한 랜덤 포레스트 (Random Forest)에 대해서는 다음 글을 참고해 보자.

https://medium.com/@deepvalidation/title-3b0e263605de

 

군중은 똑똑하다 — Random Forest

데이터 사이언스에서 예측은 과연 어떤 식으로 이루어질까요? 데이터 사이언스에 관한 블로그나 기사글을 보면 모델을 통하여 예측한다고는 하는데, 그 “통계적 모델” 혹은 머신러닝이 구체�

medium.com

4. 인공지능을 조금 공부해 본 사람이라면 한번쯤 들어봤을 법만한  SVM (Support Vector Machine)에 대해서도 알아보자.

https://excelsior-cjh.tistory.com/66?category=918734

 

Support Vector Machine (SVM, 서포트 벡터 머신)

1. Support Vector Machine, SVM이란? Support Vector Machine(SVM)은 원 훈련(또는 학습)데이터를 비선형 매핑(Mapping)을 통해 고차원으로 변환한다. 이 새로운 차원에서 초평면(hyperplane)을 최적으로 분리하..

excelsior-cjh.tistory.com

5. Scikit Learn에서는 Stochastic Gradient Descent도 제공하고 있다.

https://scikit-learn.org/stable/modules/sgd.html

 

1.5. Stochastic Gradient Descent — scikit-learn 0.23.2 documentation

1.5. Stochastic Gradient Descent Stochastic Gradient Descent (SGD) is a simple yet very efficient approach to fitting linear classifiers and regressors under convex loss functions such as (linear) Support Vector Machines and Logistic Regression. Even thoug

scikit-learn.org

6. 인공지능을 공부하는데 있어서 통계에 대한 배경지식이 참 중요하다는 얘기를 들었는데, 기초를 다지려면 정말 필요한 것 같다. 로지스틱 회귀 (Logistic Regression)에 대해서 모른다면 이글을 한번 읽어 보자~

http://hleecaster.com/ml-logistic-regression-concept/

 

로지스틱회귀(Logistic Regression) 쉽게 이해하기 - 아무튼 워라밸

본 포스팅에서는 머신러닝에서 분류 모델로 사용되는 로지스틱 회귀 알고리즘에 대한 개념을 최대한 쉽게 소개한다. (이전에 선형회귀에 대한 개념을 알고 있다면 금방 이해할 수 있는 수준으��

hleecaster.com

7. What is Confusion Matrix and Advanced Classification Metrics?

https://manisha-sirsat.blogspot.com/2019/04/confusion-matrix.html

 

Confusion Matrix

What is Confusion Matrix and Advanced Classification Metrics?   After data preparation and model training, there is model evaluat...

manisha-sirsat.blogspot.com

8. 마지막으로 선형대수 등 수학적인 컨셉을 애니메이션으로 잘~ 설명해 주는 아주 유용한 유튜브 채널이 있어서 소개한다. 급우들이 보면 좋다고 하도 추천을 해서...

https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw

 

3Blue1Brown

3Blue1Brown, by Grant Sanderson, is some combination of math and entertainment, depending on your disposition. The goal is for explanations to be driven by a...

www.youtube.com