본문 바로가기

데이터 엔지니어링/Spark1

[Udemy / PySpark 로 빅데이터 분석하기 with Python] Spark를 시작하기 앞서 빅데이터란? RAM에 따라 0~64GB 규모의 Local컴퓨터에 저장할 수 있는 데이터이다. 그러나 필요한 데이터가 증가하고 32GB 나아가 64GB보다 큰 데이터들을 저장의 필요성이 대두됨에 따라, SQL Database, 분산 시스템이 나타났다. 로컬시스템은 단일 계산 시스템으로 컴퓨터 1대 라고 생각하면 된다. 분산시스템은 네트워크를 통해 연결된 컴퓨터 여러대라 생각하면 된다. 데이터를 저장할 때 특정 용량 이후에는 cpu가 높은 local 시스템으로 확장하는 것 보다 cpu가 낮은 여러 시스템으로 확장하는것이 더 쉽기에 빅데이터를 관리하는 시스템들은 주로 분산시스템 방식을 채택한다. 분산시스템의 장점은 결함 감내 시스템(Fault tolerant system)도 있는데 , 이 시스템 덕분에 하나의.. 2022. 2. 9.

이전 1 다음

티스토리툴바