AIFFEL Life

[Day40] 하둡이냐 아파치냐

nevermet 2020. 12. 16. 10:51

오늘은 빅데이터 생태계에 대해서 알아보았습니다. 인공지능도 결국은 무언가 어플리케이션이 유용해야 널리 사용될 수 있는 것이겠죠. 그리고 딥러닝의 경우 결국 학습할 데이타가 있어야 한다는 점에서도 빅데이터와 결합했을 때 훨씬 시너지 효과가 크게 나타날 겁니다. 그런 차원에서 결국 빅데이터 시스템을 구축하고 그 데이터를 학습하고 분석하는 인공지능을 그 위에 얹어야 좋은 결과물이 나올 수 있다는 어쩌면 당연한 이야기가 만들어 질 것 같습니다. 그래서, 인공지능이 학습할 데이터를 모으고, 처리할 빅데이터 시스템에 대한 이해가 필수적이라고 할 수 있는데, 오늘은 그 중 유명한 하둡과 스파크에 대해서 알아볼 수 있는 자료들을 공유합니다.

1. The Google File System (paper)

static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf

2. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf

3. Spark News

spark.apache.org/news/index.html

 

News | Apache Spark

We are happy to announce the availability of Spark 1.0.0! Spark 1.0.0 is the first in the 1.X line of releases, providing API stability for Spark’s core interfaces. It is Spark’s largest release ever, with contributions from 117 developers. This releas

spark.apache.org

4. What is Apache Spark?

www.youtube.com/watch?v=p8FGC49N-zM&feature=youtu.be

5. 빅데이터 시대를 열다, 하둡을 창시한 더그 커팅

brunch.co.kr/@hvnpoet/98

 

빅데이터 시대를 열다, 하둡을 창시한 더그 커팅

[야만인] 인공지능 탄생의 뒷이야기 | 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스

brunch.co.kr

6. Hadoop vs Spark | Which One to Choose? | Hadoop Training | Spark Training | Edureka

www.youtube.com/watch?v=xDpvyu0w0C8&feature=youtu.be

7. 느긋한 계산법

ko.wikipedia.org/wiki/%EB%8A%90%EA%B8%8B%ED%95%9C_%EA%B3%84%EC%82%B0%EB%B2%95

 

느긋한 계산법 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 둘러보기로 가기 검색하러 가기 컴퓨터 프로그래밍에서 느긋한 계산법(Lazy evaluation)은 계산의 결과값이 필요할 때까지 계산을 늦추는 기법이다. 두 가지 관련

ko.wikipedia.org

8. Spark SQL, DataFrames and Datasets Guide

spark.apache.org/docs/1.6.1/sql-programming-guide.html

 

Spark SQL and DataFrames - Spark 1.6.1 Documentation

Spark SQL, DataFrames and Datasets Guide Overview Spark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Spark with more information about the structure of both the data and

spark.apache.org

9. Transformations

spark.apache.org/docs/latest/rdd-programming-guide.html#transformations

 

RDD Programming Guide - Spark 3.0.1 Documentation

RDD Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed

spark.apache.org

10. Actions

spark.apache.org/docs/latest/rdd-programming-guide.html#actions

 

RDD Programming Guide - Spark 3.0.1 Documentation

RDD Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed

spark.apache.org

11. Apache Spark reduceByKey Example

backtobazics.com/big-data/spark/apache-spark-reducebykey-example/

 

Apache Spark reduceByKey Example - Back To Bazics

Looking at spark reduceByKey example, we can say that reduceByKey is one step ahead then reduce function in Spark with the contradiction that it is a transformation operation

backtobazics.com