-
[Day40] 하둡이냐 아파치냐AIFFEL Life 2020. 12. 16. 10:51
오늘은 빅데이터 생태계에 대해서 알아보았습니다. 인공지능도 결국은 무언가 어플리케이션이 유용해야 널리 사용될 수 있는 것이겠죠. 그리고 딥러닝의 경우 결국 학습할 데이타가 있어야 한다는 점에서도 빅데이터와 결합했을 때 훨씬 시너지 효과가 크게 나타날 겁니다. 그런 차원에서 결국 빅데이터 시스템을 구축하고 그 데이터를 학습하고 분석하는 인공지능을 그 위에 얹어야 좋은 결과물이 나올 수 있다는 어쩌면 당연한 이야기가 만들어 질 것 같습니다. 그래서, 인공지능이 학습할 데이터를 모으고, 처리할 빅데이터 시스템에 대한 이해가 필수적이라고 할 수 있는데, 오늘은 그 중 유명한 하둡과 스파크에 대해서 알아볼 수 있는 자료들을 공유합니다.
1. The Google File System (paper)
static.googleusercontent.com/media/research.google.com/ko//archive/gfs-sosp2003.pdf
2. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
3. Spark News
spark.apache.org/news/index.html
News | Apache Spark
We are happy to announce the availability of Spark 1.0.0! Spark 1.0.0 is the first in the 1.X line of releases, providing API stability for Spark’s core interfaces. It is Spark’s largest release ever, with contributions from 117 developers. This releas
spark.apache.org
4. What is Apache Spark?
www.youtube.com/watch?v=p8FGC49N-zM&feature=youtu.be
5. 빅데이터 시대를 열다, 하둡을 창시한 더그 커팅
빅데이터 시대를 열다, 하둡을 창시한 더그 커팅
[야만인] 인공지능 탄생의 뒷이야기 | 더그 커팅 Doug Cutting은 오픈소스 프로젝트의 최대 성공작 중 하나인 Hadoop을 시작한 분입니다. 2006년, 대학원생 마이크 카파렐라 Michael J. Cafarella와 오픈소스
brunch.co.kr
6. Hadoop vs Spark | Which One to Choose? | Hadoop Training | Spark Training | Edureka
www.youtube.com/watch?v=xDpvyu0w0C8&feature=youtu.be
7. 느긋한 계산법
ko.wikipedia.org/wiki/%EB%8A%90%EA%B8%8B%ED%95%9C_%EA%B3%84%EC%82%B0%EB%B2%95
느긋한 계산법 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 둘러보기로 가기 검색하러 가기 컴퓨터 프로그래밍에서 느긋한 계산법(Lazy evaluation)은 계산의 결과값이 필요할 때까지 계산을 늦추는 기법이다. 두 가지 관련
ko.wikipedia.org
8. Spark SQL, DataFrames and Datasets Guide
spark.apache.org/docs/1.6.1/sql-programming-guide.html
Spark SQL and DataFrames - Spark 1.6.1 Documentation
Spark SQL, DataFrames and Datasets Guide Overview Spark SQL is a Spark module for structured data processing. Unlike the basic Spark RDD API, the interfaces provided by Spark SQL provide Spark with more information about the structure of both the data and
spark.apache.org
9. Transformations
spark.apache.org/docs/latest/rdd-programming-guide.html#transformations
RDD Programming Guide - Spark 3.0.1 Documentation
RDD Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed
spark.apache.org
10. Actions
spark.apache.org/docs/latest/rdd-programming-guide.html#actions
RDD Programming Guide - Spark 3.0.1 Documentation
RDD Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed
spark.apache.org
11. Apache Spark reduceByKey Example
backtobazics.com/big-data/spark/apache-spark-reducebykey-example/
Apache Spark reduceByKey Example - Back To Bazics
Looking at spark reduceByKey example, we can say that reduceByKey is one step ahead then reduce function in Spark with the contradiction that it is a transformation operation
backtobazics.com
'AIFFEL Life' 카테고리의 다른 글
[Day41] 번역기를 만들어보자 (0) 2020.12.16 [Day40] 정보이론 톱아보기? (0) 2020.12.16 [Day39] 역전파를 이해하자 (0) 2020.12.16 [Day38] 인물 사진 모드 처리 (0) 2020.12.15 [Day37] 차원 축소 (0) 2020.12.15