본문 바로가기

데이터 엔지니어링3

[Python / Crawling] Python 문자열 공백 없애기 우리 학교 공지사항을 크롤링을 하기 위해 해당 tag의 text들을 추출했는데 무수한 공백과 함께 공지사항이 출력되었다. 이를 없애기 위해서 파이썬 내장 함수인 strip()를 써줬다. text.strip()을 쓰면 오른쪽 왼쪽에 있는 무수한 공백들을 다 제거해준다. strip() -오른쪽 왼쪽 공백을 제거 lstrip() - 왼쪽 공백을 제거 rstrip() - 오른쪽 공백을 제거 +)추가로 모든 공백을 다 없애고 싶으면 replace(" ","")를 이용하면 된다.! 공백이 아닌 문자열도 지울 수 있는데, example = "Hello World!" print(example.lstrip("He")) #출력 결과:llo World! print(example.rstrip("rld!")) #출력 결과:He.. 2022. 2. 9.
[Udemy / PySpark 로 빅데이터 분석하기 with Python] Spark를 시작하기 앞서 빅데이터란? RAM에 따라 0~64GB 규모의 Local컴퓨터에 저장할 수 있는 데이터이다. 그러나 필요한 데이터가 증가하고 32GB 나아가 64GB보다 큰 데이터들을 저장의 필요성이 대두됨에 따라, SQL Database, 분산 시스템이 나타났다. 로컬시스템은 단일 계산 시스템으로 컴퓨터 1대 라고 생각하면 된다. 분산시스템은 네트워크를 통해 연결된 컴퓨터 여러대라 생각하면 된다. 데이터를 저장할 때 특정 용량 이후에는 cpu가 높은 local 시스템으로 확장하는 것 보다 cpu가 낮은 여러 시스템으로 확장하는것이 더 쉽기에 빅데이터를 관리하는 시스템들은 주로 분산시스템 방식을 채택한다. 분산시스템의 장점은 결함 감내 시스템(Fault tolerant system)도 있는데 , 이 시스템 덕분에 하나의.. 2022. 2. 9.
[자격증] 비전공자(반전공자) 빅데이터 분석 기사 3회차 합격 후기 2021년 12월 31일 한 해의 마무리 선물로 빅데이터분석기사 자격증을 취득했다! 사실 합격소식은 22일에 사전 점수 확인 공지로 알고있었는데..! 자격증이랑 문제 점수확인이랑은 다르니까..~ㅎㅎ ✔ 사전 지식 ① 빅데이터 분석 개념 본인은 전자공학과에 재학중이고 전공과목으로 '딥러닝' 을 수강했다. 또 본인은 대학등록금으로 듣고싶은 과목 다 듣자 주의여서 타학과 전공을 20학점 넘게 들었는데..(하하..) 산업경영공학과 전공 과목으로 인공지능, 데이터마이닝, 확률과 통계를 듣고 교양 과목으로 확률과 통계, Jamovi로 배우는 통계를 수강하였다. 그리고 이 모든 과목을 A+...을 받았다. ② 파이썬 백준 티어는 현재 실버1이고 프로그래머스 레벨 2~3문제정도 풀 수 있다. 사실상 반전공자.. 라고 .. 2021. 12. 31.