본문 바로가기

DataEngineering2

[Python / Crawling] Python 문자열 공백 없애기 우리 학교 공지사항을 크롤링을 하기 위해 해당 tag의 text들을 추출했는데 무수한 공백과 함께 공지사항이 출력되었다. 이를 없애기 위해서 파이썬 내장 함수인 strip()를 써줬다. text.strip()을 쓰면 오른쪽 왼쪽에 있는 무수한 공백들을 다 제거해준다. strip() -오른쪽 왼쪽 공백을 제거 lstrip() - 왼쪽 공백을 제거 rstrip() - 오른쪽 공백을 제거 +)추가로 모든 공백을 다 없애고 싶으면 replace(" ","")를 이용하면 된다.! 공백이 아닌 문자열도 지울 수 있는데, example = "Hello World!" print(example.lstrip("He")) #출력 결과:llo World! print(example.rstrip("rld!")) #출력 결과:He.. 2022. 2. 9.
[Udemy / PySpark 로 빅데이터 분석하기 with Python] Spark를 시작하기 앞서 빅데이터란? RAM에 따라 0~64GB 규모의 Local컴퓨터에 저장할 수 있는 데이터이다. 그러나 필요한 데이터가 증가하고 32GB 나아가 64GB보다 큰 데이터들을 저장의 필요성이 대두됨에 따라, SQL Database, 분산 시스템이 나타났다. 로컬시스템은 단일 계산 시스템으로 컴퓨터 1대 라고 생각하면 된다. 분산시스템은 네트워크를 통해 연결된 컴퓨터 여러대라 생각하면 된다. 데이터를 저장할 때 특정 용량 이후에는 cpu가 높은 local 시스템으로 확장하는 것 보다 cpu가 낮은 여러 시스템으로 확장하는것이 더 쉽기에 빅데이터를 관리하는 시스템들은 주로 분산시스템 방식을 채택한다. 분산시스템의 장점은 결함 감내 시스템(Fault tolerant system)도 있는데 , 이 시스템 덕분에 하나의.. 2022. 2. 9.