AIFFEL Life

[Day20] 캐글에 도전해 보기

nevermet 2020. 12. 14. 14:47

오늘은 캐글에 대해 배워봅니다. 캐글을 이해하는데 도움이 되고, 실제로 캐글 문제를 푸는 데 알아두면 유용한 자료들을 아래에 공유합니다. 

1. 캐글 코리아 페이스북

www.facebook.com/groups/KaggleKoreaOpenGroup/

 

캐글 코리아 (Kaggle Korea)

캐글을 함께 즐기며, 서로의 경험, 아이디어를 공유합니다. 캐글의 대중화, 데이터 사이언스의 대중화를 꿈꿉니다 # 누구든 함께 즐길 수 있습니다. # 캐글 코리아는 비영리 커뮤니티 그룹으로

www.facebook.com

2. 캐글 코리아와 함께하는 2nd ML 대회 - House Price Prediction

www.kaggle.com/c/2019-2nd-ml-month-with-kakr

 

2019 2nd ML month with KaKR

캐글 코리아와 함께하는 2nd ML 대회 - House Price Prediction

www.kaggle.com

캐글은 커널을 공개하도록 하여 상위권에 위치한 사람들이 어떻게 문제를 풀었는지 확인할 수 있습니다. 또한 아래처럼 베이스라인 커널이 주어지는 경우도 있네요.

3. 2019 ML month 2nd baseline 커널

www.kaggle.com/kcs93023/2019-ml-month-2nd-baseline

 

2019 ML month 2nd baseline 커널

Explore and run machine learning code with Kaggle Notebooks | Using data from 2019 2nd ML month with KaKR

www.kaggle.com

아이펠에서도 주피터 노트북으로 딥러닝 프로그래밍을 하고 노트북 형태로 그 결과를 공유하곤 하는데요. 혹시 주피터 노트북 사용에 익숙하지 않다면 볼 만한 비디오입니다.

4. 주피터 노트북 사용하기

dojang.io/mod/page/view.php?id=2457

 

파이썬 코딩 도장: 46.2 주피터 노트북 사용하기

지금까지 파이썬 IDLE에서 코드를 작성하고 실행해봤습니다. 이번에는 웹 브라우저에서 파이썬 코드를 작성하고 실행까지 해볼 수 있는 주피터 노트북(jupyter notebook)을 사용해보겠습니다. 사실

dojang.io

5. Python del Keyword

www.w3schools.com/python/ref_keyword_del.asp

 

Python del Keyword

Python del Keyword ❮ Python Keywords Example Delete an object: class MyClass:   name = "John" del MyClass print(MyClass) Try it Yourself » Definition and Usage The del keyword is used to delete objects. In Python everything is an object, so the del key

www.w3schools.com

혹시 pandas를 사용하다가, 중복된 데이터 제거나 null값 등을 제거하고 싶을 때 다음 페이지를 참고해 보세요.

6. pandas.DataFrame.drop (pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)

7. Pandas Lambda, apply를 활용하여 복잡한 로직 적용하기

data-newbie.tistory.com/207

 

[ Python ] Pandas Lambda, apply를 활용하여 복잡한 로직 적용하기

도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 아래에 참고한 medium 사이트가 있으니, 한번 보시고 저것도 보시면 될 것 같습니다! Pandas에서 변수에 대해서 먼가 변

data-newbie.tistory.com

8. seaborn.kdeplot

seaborn.pydata.org/generated/seaborn.kdeplot.html

 

seaborn.kdeplot — seaborn 0.11.0 documentation

Orientation parameter. Deprecated since version 0.11.0: specify orientation by assigning the x or y variables.

seaborn.pydata.org

9. What is Ensemble Learning? subinium.github.io/introduction-to-ensemble-1/#:~:text=%EC%95%99%EC%83%81%EB%B8%94(Ensemble)%20%ED%95%99%EC%8A%B5%EC%9D%80%20%EC%97%AC%EB%9F%AC,%EB%A5%BC%20%EA%B0%80%EC%A7%80%EA%B3%A0%20%EC%9D%B4%ED%95%B4%ED%95%98%EB%A9%B4%20%EC%A2%8B%EC%8A%B5%EB%8B%88%EB%8B%A4

 

Part 1. Introduction to Ensemble Learning

Part 1. What is Ensemble Learning?

subinium.github.io

10. 캐글 앙상블 가이드

gentlej90.tistory.com/73

 

KAGGLE ENSEMBLING GUIDE

원문 : http://mlwave.com/kaggle-ensembling-guide/ # 번역이 매끄럽지 않은점 양해 부탁드림. 오역이 있을 수 있으니 주의바람. 댓글로 알려주시면 바로 고치겠습니다. 모델 앙상블은 다양한 기계학습문제

gentlej90.tistory.com

11. Coefficient of Determination(결정계수), R^2(R square)

newsight.tistory.com/259

 

Coefficient of Determination(결정계수), R^2(R square)

결정계수 = Coefficient of Determination = R^2 = R squared - Regression model의 성능을 측정하기 위해 mean value로 예측하는 단순 모델(Zero-R 모델)과 비교, 상대적으로 얼마나 성능이 나오는지를 측정한..

newsight.tistory.com

12. Random Search vs Grid Search

shwksl101.github.io/ml/dl/2019/01/30/Hyper_parameter_optimization.html

 

Entiff's blog

 

shwksl101.github.io

13. The scoring parameter: defining model evaluation rules

scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

 

3.3. Metrics and scoring: quantifying the quality of predictions — scikit-learn 0.23.2 documentation

3.3. Metrics and scoring: quantifying the quality of predictions There are 3 different APIs for evaluating the quality of a model’s predictions: Finally, Dummy estimators are useful to get a baseline value of those metrics for random predictions. 3.3.1.

scikit-learn.org

14. pandas.DataFrame.sort_values

pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

 

pandas.DataFrame.sort_values — pandas 1.1.5 documentation

Name or list of names to sort by. Changed in version 0.23.0: Allow specifying index or column level names.

pandas.pydata.org

15. lightGBM / XGBoost 파라미터 설명

machinelearningkorea.com/2019/09/29/lightgbm-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0/

 

lightGBM / XGBoost 파라미터 설명 – Go Lab

lightGBM에는 무수히 많은 파라미터가 있다. 다만 기억할것은 정답이 없다는것이다. 생각보다 하이퍼파라미터 튜닝에 시간을 많이 쏟지는 않는 이유는, 어차피 ensemble형식이기 때문에 구조자체가

machinelearningkorea.com

16. LightGBM의 장단점

injo.tistory.com/48

 

[Chapter 4. 분류] LightGBM

1. LightGBM의 장단점 LightGBM의 장점 (1) XGBoost 대비 더 빠른 학습과 예측 수행 시간 (2) 더 작은 메무리 사용량 (3) 카테고리형 피처의 자동 변환과 최적 분할 : 원-핫인코딩 등을 사용하지 않고도 카테

injo.tistory.com

처음에 소개한 캐글 문제에 대해 아래처럼 공개된 노트북을 보면 배울 수 있습니다.

17. 2019 2nd ML month with KaKR

www.kaggle.com/c/2019-2nd-ml-month-with-kakr/notebooks

 

2019 2nd ML month with KaKR

캐글 코리아와 함께하는 2nd ML 대회 - House Price Prediction

www.kaggle.com