AIFFEL Life

[Day34] 하둡과 스파크를 알아보자

nevermet 2020. 12. 15. 16:45

요즘은 별로 주목을 받지 못하는 것 같지만, AI라는 키워드가 유행하기 직전까지 빅데이터가 정말 핫한 키워드였는데요. 그때 빅데이터 시스템을 구축하려면 하둡 혹은 스파크에다가 만들어야 하는 것처럼 엄청 유명했던 용어죠. 하둡과 스파크를 이해하는데 도움이 될 만한 글들을 공유합니다.

1. [공모전 수상작] 쌀 한가마니 속 쌀알의 개수는?

m.post.naver.com/viewer/postView.nhn?volumeNo=10165636&memberNo=608322

 

[공모전 수상작] 쌀 한가마니 속 쌀알의 개수는?

[BY 통계청] 조선시대 선비, 오성이 들려주는 재미있는 통계 이야기 쌀 한가마니 속 쌀알의 개수는? 고...

m.post.naver.com

2. MapReduce

en.wikipedia.org/wiki/MapReduce

 

MapReduce - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search MapReduce is a programming model and an associated implementation for processing and generating big data sets with a parallel, distributed algorithm on a cluster.[1][2][3] A MapReduce

en.wikipedia.org

3. Split-Apply-Combine Strategy for Data Mining

medium.com/analytics-vidhya/split-apply-combine-strategy-for-data-mining-4fd6e2a0cc99

 

Split-Apply-Combine Strategy for Data Mining.

In a typical exploratory data analysis we approach the problem by dividing the data set at some granular level and then aggregating the…

medium.com

4. MapReduce: Simplified Data Processing on Large Clusters (Paper)

static.googleusercontent.com/media/research.google.com/ko//archive/mapreduce-osdi04.pdf

5. MapReduce: Simplified Data Processing on Large Clusters (Slides)

research.google.com/archive/mapreduce-osdi04-slides/index.html

 

MapReduce:Simplified Data Processing on Large Clusters

 

research.google.com

6. "하둡을 제압한 빅데이터 플랫폼" 아파치 스파크란 무엇인가

www.itworld.co.kr/insight/147556

 

"하둡을 제압한 빅데이터 플랫폼" 아파치 스파크란 무엇인가 - ITWorld Korea

아파치 스파크(Apache Spark)는 매우 큰 데이터 집합을 대상으로 빠르게 처리 작업을 수행하는 한편, 단독으로 또는 다른 분산 컴퓨팅 툴과 조율해 여러 컴퓨터로 데이터 처리 작업을 분산할 수 있

www.itworld.co.kr

7. collections — Container datatypes

docs.python.org/3.8/library/collections.html

 

collections — Container datatypes — Python 3.8.7rc1 documentation

collections — Container datatypes Source code: Lib/collections/__init__.py This module implements specialized container datatypes providing alternatives to Python’s general purpose built-in containers, dict, list, set, and tuple. namedtuple() factory f

docs.python.org