하둡: 배경
·
데이터 엔지니어링/하둡
`Hadoop: The Definitive Guide (4th Edition)` 정리 내용입니다.데이터 시대우리는 데이터 시대에 살고있습니다. 전체 데이터 양을 측정하기는 어렵지만, 대략적으로 2013년에 4.4 제타바이트였으며, 2020년에는 그 10배인 약 44 제타바이트정도가 될 것이라 추정합니다(1 제타바이트 = 10억 테라비이트). 이런 홍수와도 같은 데이터 양은 여러 소스로부터 생깁니다. 예를들어, 뉴욕 주식 시장은 매일 4-5 테라바이트의 데이터를 생성하고, 페이스북 또한 1달에 2400억 사진으로 약 7 페타바이트를 호스팅합니다. "더 많은 데이터가, 더 나은 알고리즘보다 났다" 라는 말이 있습니다. 데이터의 양으로 정교한 알고리즘을 넘어설 수 있다는 이야기이죠. 좋은 소식은 이미 많은 양..