자기계발/통계데이터과학과

[기말고사_요약정리] 빅데이터의 이해와 활용 2장

딩동동 2022. 11. 28. 20:21

빅데이터의 이해와 활용 2장 빅데이터의 수집과 활용

 

▣ 2.1 빅데이터의 수집

  • 빅데이터는 그 출처에 따라 내부 & 외부 데이터로 구분.
  • 데이터의 수집이란 내부데이터와 외부데이터를 수집, 변환, 통합하는 것.
  • 광의적 의미로 데이터의 수집은 반정형 또는 비정형 데이터를 분석할 수 있는 정형데이터로 변환하는 과정 포함.
  • 데이터의 수집은 검색, 수집, 변환의 연속과정으로 구성
내부데이터 외부데이터
* 정부 및 기업의 업무과정에서 생성되는 데이터
* 주로 데이터베이스 등에 저장됨
* 외부에 공개되지 않음
* 웹페이지, 정부 및 공공기관의 공개 데이터,
웹포털 데이터, SNS데이터 등이 있음
* 반정형 or 비정형 데이터
* 데이터베이스 or 공개API 형태로 데이터를 공개함
  • 웹크롤링(Web crawling) : 웹 로봇을 이용하여 외부에 존재하는 데이터 중                                                                                                   인터넷에 공개된 HTML에서 데이터를 수집하는 도구.                                                                                         연결된 링크에 따라 웹페이지를 읽고 필요한 부분을 긁어옴.
  • 파싱(parsing) : HTML이나 XML과 같은 특정한 규칙에 근거하여 만들어진 데이터를  분해하고                                                    사용자가 정한 저장 규칙에 따라 분해한 데이터를 저장하는 과정 

 

 2.2 검색데이터의 활용

 

 2.3 텍스트데이터의 활용

 

 2.4 웹페이지 데이터의 수집과 활용

  • 웹페이지 데이터의 수집 : 웹크롤링
  • 웹페이지 데이터의 활용 : 온라인 물가지수의 작성, 감정데이터 분석
  • 온라인 물가지수 : 인터넷의 가격정보를 수집해서 국가통계인 소비자물가지수보다 빠르게 작성할 수 있음

 

 2.5 API를 이용한 데이터의 수집과 활용

  • 트위터 데이터(SNS데이터) 의 수집과 활용
  • 공공데이터의 수집과 활용

 

출처 : 빅데이터의 이해와 활용, 이긍희.함유근.김용대.이준환.원중호, 한국방송통신대학교출판문화원