자기계발/통계데이터과학과

[기말고사_요약정리] 빅데이터의 이해와 활용 1장

딩동동 2022. 11. 29. 21:42

빅데이터의 이해와 활용 1장 빅데이터의 개요

 

▣ 1.1 빅데이터 시대

 

  • 데이터(D) : 단순한 사실 그 자체로 정보를 만드는 재료
  • 정보(I) : 데이터에 의미를 부여하거나 데이터를 모아서 가공 정리한 것
  • 지식(K) : 정보들을 모으고 결합, 분석하여 구조화한 후 일반화된 것
  • 지혜(W) : 여러 다른 지식을 결합, 학습한 후 통찰을 추가해 미래를 위한 최선의 결정을 할 수 있게 하는 것

 

지식피라미드

 

데이터의 역사

 

▣ 1.2 빅데이터의 확산 배경

 

  • 센서를 포함한 스마트 기기의 확산 (스마트폰, 스마트워치, 사물인터넷, 자율주행차)
  • 빅데이터 기반 하드웨어 및 네트워크의 고도화 (클라우드 컴퓨팅, 5G/6G, 블루투스, RFID, NFC)
  • 빅데이터 기반 소프트웨어의 발전 (하둡, 다양한 분석기법, 실시간 데이터 처리 능력 향상, 딥러닝 알고리즘)

 

▣ 1.3 빅데이터의 정의

 

  • 규모(Volume) : 머신러닝이나 딥러닝 모형은 데이터의 규모가 커야만 의미가 있음
  • 다양성(Variety) : 정형+비정형+반정형 데이터 (사진,음성,동영상,텍스트 보고서 etc)
  • 속도(Velocity) : 각종 데이터가 빠르게 축적됨
  • 정확성(Veracity) : 전체 모집단을 대표하지 못하고 정확하지 않은 데이터는 분석의 결과를 신뢰할 수 없게 함
  • 가치(Value) : 유용한 통찰을 얻어 의미 있는 의사결정을 하지 못한다면 빅데이터로서의 의미가 없음
  • 광의의 빅데이터는 앞서 정의한 5V + 빅데이터 관련 기술, 인력, 조직, 인프라를 포함

데이터 단위

 

▣ 1.4 데이터 분석

 

  • 데이터로부터 좋은 결과를 내는 모형이 = 새로운 데이터에서 좋은 성과를 내는 모형이라는 결과 중심으로 과정을 생각하게 됨
표본조사 모집단에서 표본을 임의로 추출하여 모집단의 특성값을 추측하는 것 여론조사, 각종 국가통계
실험계획법 실험을 실시하여 데이터의 변화를 가져오는 인자들의 효과를 측정 신약개발, 품질관리
머신러닝 인과구조를 설명할 수 없지만 데이터로부터 결과를 내는 모형  
  • 규칙기반 → 양질의 데이터를 이용한 통계 기반 → 빅데이터를 이용한 딥러닝 모형 기반으로 발전하고 있음

 

▣ 1.5 데이터 과학자

 

  • 데이터공학자 : 데이터 파이프라인을 개발하고 유지 보수하며 데이터를 분석할 수 있는 컴퓨팅 환경을 제공
  • 자바, 파이썬 등 프로그램 언어, 하둡, 스파크, 클라우드 환경개발 지식이 필요함

 

  • 데이터분석자 : 데이터를 분석하거나 시각화하여 의미 있는 결론 도출
  • 기초통계학, SQL, 시각화 도구 지식 필요

 

  • 데이터과학자 : 데이터 분석으로부터 새로운 가치를 만들거나 예측하는 알고리즘을 만드는 일을 함
  • 심화된 통계학, 수학, 머신러닝 능력, 코딩능력 필요

 

 

데이터 과학

 

  • 하드스킬 : 빅데이터를 처리하고 분석하는 데 필요한 이론적, 기술적 지식
  • 데이터베이스, 프로그래밍, 통계학, 딥러닝, 머신러닝, 텍스트 마이닝 etc
  • 소프트스킬 : 통찰력, 스토리텔링, 시각화 전달 능력, 다른 분야 전문가와 소통, 협력할 수 있는 능력

 

▣ 1.6 데이터 경제

 

  • 데이터가 경제의 기본 생산요소인 자본, 노동에 더해져 새로운 생산요소가 됨

데이터경제 (출처 : Enter the Data Economy('17, EC))

 

출처 : 빅데이터의 이해와 활용, 이긍희.함유근.김용대.이준환.원중호, 한국방송통신대학교출판문화원