자기계발/통계데이터과학과
[기말고사_요약정리] 빅데이터의 이해와 활용 2장
딩동동
2022. 11. 28. 20:21
빅데이터의 이해와 활용 2장 빅데이터의 수집과 활용
▣ 2.1 빅데이터의 수집
- 빅데이터는 그 출처에 따라 내부 & 외부 데이터로 구분.
- 데이터의 수집이란 내부데이터와 외부데이터를 수집, 변환, 통합하는 것.
- 광의적 의미로 데이터의 수집은 반정형 또는 비정형 데이터를 분석할 수 있는 정형데이터로 변환하는 과정 포함.
- 데이터의 수집은 검색, 수집, 변환의 연속과정으로 구성
내부데이터 | 외부데이터 |
* 정부 및 기업의 업무과정에서 생성되는 데이터 * 주로 데이터베이스 등에 저장됨 * 외부에 공개되지 않음 |
* 웹페이지, 정부 및 공공기관의 공개 데이터, 웹포털 데이터, SNS데이터 등이 있음 * 반정형 or 비정형 데이터 * 데이터베이스 or 공개API 형태로 데이터를 공개함 |
- 웹크롤링(Web crawling) : 웹 로봇을 이용하여 외부에 존재하는 데이터 중 인터넷에 공개된 HTML에서 데이터를 수집하는 도구. 연결된 링크에 따라 웹페이지를 읽고 필요한 부분을 긁어옴.
- 파싱(parsing) : HTML이나 XML과 같은 특정한 규칙에 근거하여 만들어진 데이터를 분해하고 사용자가 정한 저장 규칙에 따라 분해한 데이터를 저장하는 과정
▣ 2.2 검색데이터의 활용
- 네이버 데이터랩 : 검색어들의 시간적 추이를 그래프로 볼 수 있음
- 구글 트렌드 : 검색어가 국가, 도시, 언어에 따라 어떻게 달라지고 있는지 시각화하여 제공
- https://datalab.naver.com/
- https://trends.google.com/trends/?geo=KR
▣ 2.3 텍스트데이터의 활용
- 구글 Ngram Viewer : 책을 스캔하여 디지털화 한 뒤 키워드를 검색하여 책의 내용을 검색할 수 있도록 함
- 한국언론진흥재단의 빅카인즈 : 다양한 언론사로부터 뉴스를 수집
- https://books.google.com/ngrams/
- https://www.bigkinds.or.kr/
▣ 2.4 웹페이지 데이터의 수집과 활용
- 웹페이지 데이터의 수집 : 웹크롤링
- 웹페이지 데이터의 활용 : 온라인 물가지수의 작성, 감정데이터 분석
- 온라인 물가지수 : 인터넷의 가격정보를 수집해서 국가통계인 소비자물가지수보다 빠르게 작성할 수 있음
▣ 2.5 API를 이용한 데이터의 수집과 활용
- 트위터 데이터(SNS데이터) 의 수집과 활용
- 공공데이터의 수집과 활용
출처 : 빅데이터의 이해와 활용, 이긍희.함유근.김용대.이준환.원중호, 한국방송통신대학교출판문화원
