자기계발/통계데이터과학과

[기말 핵심 요약] 빅데이터의 이해와 활용 (통계데이터과학과)

딩동동 2022. 12. 10. 15:43
1장-2장 (개요 및 수집과 활용)

 

★ 빅데이터의 출현 배경 :

사물 인터넷(IoT) 등 인터넷으로 연결되는 세상의 확대

스마트폰 및 SNS의 확산

센서의 보급으로 인한 기계와 기계 사이의 소통(M2M) 증대

통신속도 발달, 데이터 저장능력 향상, CPU 등 하드웨어 발전

 

★ 정형데이터와 비정형 데이터 구분

정형데이터 비정형데이터
데이터베이스에 담을 수 있는 형태의 데이터
기업/기관의 데이터베이스에 저장되어 있거나
외부 데이터베이스의 데이터
언론사,포털에 뜬 뉴스게시물
블로그,온라인커뮤니티 게시물
유튜브,음악,사진,팟캐스트,SNS게시물

★ 빅데이터의 3V : 규모, 다양성, 속도

★ 데이터의 단위 : KB<MB<GM<TB<PB<EB<ZB<YB

★ 데이터 과학이란 : 통계학+해킹기술+전문지식이 종합된 분야

 

★ 데이터 과학자의 필요역량

하드스킬 소프트스킬
데이터베이스, 프로그래밍, 통계학
데이터마이닝, 텍스트마이닝 관련 이론적/기술적 지식
통찰력, 스토리텔링, 시각화 전달능력
소통.협력할 수 있는 능력

 

★ 빅데이터 수집기술

① 인터넷 검색 : 네이버 트렌드, 구글 트렌드, 구글 Ngram 등

☞ 구글 Ngram : 1500 만권의 책을 디지털화 (축적된 책에서의 출현 빈도를 기반으로 파악)

 

② 공개 API 이용

☞ 트위터의 API : REST API(트위터 사용자의 메시지, 프로필 정보 등을 수집) Streaming API(트위터에 올라오는 트윗들을 실시간으로 스트리밍 해주는 API)

☞ 페이스북의 API : Graph API를 제공

☞ 웹 크롤링 : 웹 로봇을 이용하여 조직 외부 데이터 중 인터넷 공개 HTML에서 데이터를 수집 

 

③ 웹페이지의 HTML 긁어오기

☞ 파싱(Parsing) : HTML이나 XML과 같은 특정한 규칙에 근거하여 만들어진 데이터를 분해하고, 사용자가 정한 규칙에 따라 분해한 데이터를 저장하는 것.

☞ 온라인 물가 지수 작성(구글과 MIT Billion Price 프로젝트) : 온라인 물가지수는 웹 스크래핑(자료수집) 기술로 데이터를 수집하여 공식 소비자 물가지수(정부에서 조사에 의해 시행)에 비해 속보성과 체감성이 높다

 

3장-4장 (텍스트 빅데이터 및 데이터 시각화)

 

★ 태그 클라우드 : 문서에 등장한 단어의 빈도수를 분석하여 많이 사용된 단어를 강조하여 보여주는 방법

★ 워드 트리 : 특정 단어가 다른 단어들과 어떠한 구조로 연결되어 있는지 시각화하여 보여주는 방법

★ 토큰화 : 텍스트 프로세싱에서 텍스트 데이터를 작은 단위로 잘게 분리하는 단계

★ 형태소 분석 : 하나의 어절에서 의미를 갖는 최소 단위를 분석하는 기법

 

★ 소셜 네트워크 시각화

   노드(=버티스) : 소셜 네트워크 시각화에서 행위자들

   엣지(=링크) : 두 노드를 연결하는 선

   디그리(Degree) : 각 노드가 갖는 에지의 수, 가장 많은 디그리를 갖는 노드가 네트워크의 중심으로 해석

 

★ 데이터 시각화의 원칙(터프트의 8 가지 시각화 원칙)

① 데이터 그 자체를 보여주는 것이 중요

② 화려한 그래픽이나 시각화 방법에 집중하지 않는다.

③ 데이터 자체가 말하고자 하는 바를 왜곡하지 말라

④ 너무 많은 숫자나 문자는 피하자

⑤ 데이터가 일관성을 가져야 한다.

⑥ 서로 다른 데이터를 손쉽게 비교 가능해야 한다.

⑦ 데이터를 보다 자세히 들여다볼 수 있는 방법을 제공

⑧ 통계 결과나 시각화 설명을 데이터와 함께 보여주자.

 

★ 데이터 시각화 도구

① R

② 프로세싱(processing) : 자바 기반의 언어

③ D3.js : 자바스크립트 기반 시각화 도구로 SVG를 이용하여 다양한 시각화 결과를 보여준다.

④ 타블로 데스크탑(=타블로)

⑤ 매니아이즈

 

5장 (추천 시스템)

 

★ 추천 시스템의 종류

연관 규칙분석 : 데이터에 존재하는 항목들 간의 If-than 형식의 연관규칙을 찾는 방법

 

★ 신뢰도, 지지도

신뢰도 (X와 Y를 동시에 포함하는 비율) X ∩ Y
지지도 (X를 포함하는 거래들 중 Y를 포함하는 비율) Y | X 

 

★ 향상도

연관규칙 X → Y에서 품목 X와 품목 Y 가 상호 관련이 없는 경우 = 향상도는 1 이 된다.

향상도 = 1 : 서로 독립적인 관계

향상도 < 1 : 서로 의 상관관계

향상도 > 1 : 서로 의 상관관계

 

★ 협력적 정화방법 : 개인의 선호도와 과거 상품 구매 이력 등을 분석하여 개인에게 최적의 상품을 추천하는 통계적 방법

고객수 < 상품수 : 고객기반 방법이 예측력과 계산의 효율성 모두 높다

고객수 > 상품수 : 상품기반 방법이 예측력과 계산의 효율성 모두 높다

 

6장 (기계학습)

 

기계학습 지도학습
(사전정보O)
선형모형 선형회귀분석, 최소제곱법, 벌점화회귀분석, 최대가능도추정법
의사결정나무 및 앙상블 의사결정나무, 배깅, 랜덤포레스트, 부스팅
신경망모형 및 딥러닝 합성신경망(CNN), 시계열신경망(RNN)
비지도학습
(사전정보X)
군집분석 계층적군집분석(최단/최장연결법,덴드로그램)
비계층적군집분석(K-means,가우시안모형)
차원축소법 선형결합이용(주성분분석,인자분석)
신경망모형이용(오토인코더)
강화학습    

★ 벌점화 회귀분석

빅데이터를 분석할 때 변수의 수가 > 데이터의 수보다 많은 고차원 데이터가 자주 나타난다.

이 경우 추정 결과가 불안정하고 예측력이 현저히 저하된다.

이러한 문제를 해결하기 위해 다양한 벌점화 회귀분석이 제안되어 사용되고 있다. 

능형회귀 라쏘회귀
조율모수가 0 이면 능형 추정량은 최소제곱 추정량이 되고,
조율모수가 ∞이면 능형 추정량은 0 이 된다
벌점화 최소제곱 추정량이고 성긴성질을 갖는다.
능형회귀 벌점함수 = λβ^2 라쏘회귀 벌점함수 = λIβI

 

★ 벌점화 최소제곱 추정량 : 약간의 편의가 생기지만 분산을 크게 줄일 수 있다.

★ 성긴성질 : 추정된 회귀계수 중 정확히 0 이 되는 회귀계수가 존재한다는 것.

★ 로지스틱 회귀모형 : 반응 변수 y 가 0 과 1 을 갖는 경우에 사용하는 회귀모형, y=0.1

 

★ 의사결정나무와 앙상블

의사결정나무 의사 결정규칙을 나무구조로 도표화 하여 분석하는 방법.
데이터의 작은 변화에도 첫 번째 노드의 분리변수가 바뀔 수 있으므로 불안정적임.
(반응값이 연속형/범주형일 때 둘 다 사용 가능)
배깅 주어진 데이터에 대하여 여러 개의 붓스트랩(bootstrap) 데이터를 생성하고
각 붓스트랩 데이터에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법.

붓스트랩 데이터 : 주어진 데이터로부터 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 데이터
램덤포레스트 배깅보다 더 많은 무작위성을 주어 학습기들을 생성한 후 이를 선형 결합하여 최종학습기를 만드는 방법. (붓스트랩 + 입력변수의 무작위 추출을 결합)

 

★ 군집분석

모집단 또는 범주에 대한 사전 정보가 없는 경우에 사용하는 비지도학습법.

 

 유사성 척도 : 관측 값들이 얼마나 유사한지 측정하는 측도.

연속형 변수인 경우 : 유클리디언 거리, Cosine 유사성

범주형 변수인 경우 : Jacard(자카드) 계수

 

★ 덴드로그램 : 계층적 군집법에서 전체 군집들 간의 구조적 관계를 나무구조로 표현한 방법 대표적인 방법

★ k-평균 군집분석 : 주어진 군집수 k 에 대해서 군집 내 거리 제곱 합의 합을 최소화하는 군집 분석방법.

계층적 군집분석에 비해 계산량이 적고, 대용량 데이터를 빠르게 처리할 수 있다. 구성 변수는 연속형 이어야 한다.

 

7장-8장 (빅데이터 의사결정 / 기업경영)

 

★ 빅데이터 의사결정 4단계

1단계(서술적/설명적분석) : 무슨 일이 발생했는지를 파악

2단계(진단적/분석적) : 비즈니스 인텔리전스(BI)단계. 문제의 원인을 파악

3단계(예측적) : 선택의 대안이 결과에 어떤 영향을 미치는지 예상

4단계(처방적분석) : 다양한 대안과 시나리오를 기반으로 의사결정 최적화

 

★ 합성데이터 : 실제 데이터 세트에 대하여 사전에 고안된 AI알고리즘을 적용해 인공적으로 생성되는 데이터

★ 디지털트윈 : 컴퓨터에 현실 속 사물의 쌍둥이를 만들고, 현실에서 발생할 수 있는 상황을 컴퓨터로 시뮬레이션함으로써 결과를 미리 예측하는 기술

★ RPA : 로봇 혹은 봇(bot)이 사람이 하던 일을 대체하는 비즈니스 프로세스 자동화의 한 형태

 

9장 (빅데이터 기술)

 

★ R

오픈소스, 분산 및 비 분산 모두 처리 가능.

인메모리 계산을 하기 때문에 큰 용량의 데이터를 처리하는 데 제약이 있음.

★ 하둡(Hadoop) 

오픈소스, 분산 시스템의 신뢰성을 계승, 데이터의 위치를 추적하는 방식으로 분산 파일 시스템을 구현

오프 메모리 계산을 하기 때문에 큰 용량의 데이터 처리 가능. 그러나 실시간 생성 데이터 처리에는 비효율

★ 하둡의 핵심 구성

하둡 분산 파일 시스템(HDFS)

분산 데이터 처리와 관련된 맵리듀스(MapReduce) : 키와 값

자원을 관리하는 얀(Yet Another Resource Negotiator)

★ HDFS의 구성
마스터(네임) 노드 : 슬레이브 노드의 동작과 메타데이터를 실시간 관리
슬레이브(데이터) 노드 : 데이터를 저장

 

★ 스파크(Spark)
하둡의 실시간 데이터 처리의 비효율을 개선한 대용량 데이터 처리 플랫폼
복구 가능한 분산 데이터 세트(RDD)라는 개념을 이용한 인메모리 플랫폼
자바 가상 머신에서 사용할 수 있는 스칼라 언어를 기반으로 작성

 

★ 대스크(Dask)
파이썬 라이브러리.
스케쥴러-저수준API-고수준API 3가지 계층으로 구성

 

★ NoSQL 데이터 베이스
Cassandra, 아파치 HBase, MongoDB, AWS DynamoDB, 구글BigTable
정확성이 보장되지는 않지만 지속성, 확장성을 가짐
★ 클라우드 컴퓨팅 서비스 유형
IaaS : 인프라를 빌려주는 서비스
PaaS : 플랫폼(개발,검토,유지보수 환경)을 제공하는 서비스
Saas : 소프트웨어, 응용프로그램 서비스

 

10장 (개인정보와 프라이버시 보호)

 

★ 빅데이터 시대의 개인 데이터 :

빅데이터 시대에는 다양한 원천의 개인 데이터가 수집되고 데이터 마이닝 기술로 이들을 결합 분석하기 때문에

지금까지 소홀히 여겨왔던 비개인정보로 취급되었던 내용들로도 개인을 식별할 수 있게 되었다.

★ 개인정보와 프라이버시 구분

개인정보 : 살아있는 개인에 관한 정보

프라이버시 : 개인의 사생활이나 사적인 일, 또는 그것을 남에게 간섭받지 않을 권리

개인정보는 프라이버시와 밀접한 관계가 있으나 개인정보 전체와 일치하지는 않음.

★ 법률적 개인정보

① 식별정보 : 행정정보, 생체정보 (이름, 주민번호, 여권번호, 지문, 홍채, 사진, 유전자 정보)

② 결합정보 : 신용카드번호, 계좌번호, 휴대폰 번호, 이메일, 학력, 건강 정보

③ 가명정보 : 개인정보 일부를 삭제하거나 대체 (개인을 식별할 수 없도록 한 정보)

★ 익명정보

가명정보는 추가 정보를 통해 복원이 가능하나, 익명정보는 다른 정보를 이용하더라도 식별되지 않도록 함

★ 옵트인 방식 : 개인에게 개인정보 수집에 대해 사전에 동의를 받는 방식 

★ 옵트아웃 방식 : 거부의사를 표시하지 않는 한 동의한 것으로 간주하는 방식

 

★ 개인정보 보호 원칙

 ① 수집제한의 원칙 : 개인정보는 합법적으로 수집할 경우 당사자에게 알리거나 동의를 받아야 한다.
 ② 개인정보는 명시된 목적에 부합하고 정확하고 완벽하며 최신의 상태로 유지
 ③ 수집할 때 목적을 명확이 하여 수집해야 하며 목적이 바뀔 때는 당사자에게 알려줘서 동의를 받아야 함
 ④ 당사자의 동의를 받거나 법에서 규정한 것이 아니라면 명시된 것과 다른 목적으로 사용할 수 없음
 ⑤ 안정성확보의 원칙 : 분실, 해킹, 수정, 공개 등의 위험에서 안전하게 보호
 ⑥ 개인정보를 관리하는 자는 개인정보가 어떻게 수집/사용 되었으며 공유되었는지를 공개하여야 함
 ⑦ 개인정보 소유 당사자는 누가 자신의 개인정보를 수집하고 사용하였는지 확인하고 열람할 수 있고,
 개인정보를 수정, 삭제, 보완을 청구할 수 있어야 함.

★ 개인정보 보호법 :

개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호함으로써

국민의 권리와 이익을 증진, 개인의 존엄과 가치를 구현하기 위하여 개인정보 처리에 관한 사항을

규정함을 목적으로 제정된 법.

 

데이터 3법 : 개인정보 보호법, 정보통신망법, 신용정보법

 

★ 개인정보의 기술적 보호

비식별화 방법  개인 식별 데이터 삭제
 데이터 마스킹
 가명처리
 집단의 값이 평균 or 합계로 나타나도록 하는 방식
 데이터 범주화 방식
프라이버시 보호 모형  k-익명성 모형 : 동일한 속성을 가지는 관측치가 일정 숫자 이상 있도록 함.
 l-다양성 모형 : 특정 집단의 민감정보가 최소한 1개 이상 다양하게 하는 모형.
 t-근접성 모형 : 특정집단-전체집단의 분포 차이를 t 이하가 되도록 하는 모형.
 차분(Differential) 프라이버시 : 민감한 데이터에 무작위 잡음을 추가.
인공지능 모형을 만들 때 보호하는 방법  연합학습 : 개인데이터로 학습하고 중앙 서버로 보내 결합
 재현데이터 : 원본 데이터와 유사한 가상의 데이터를 만드는 것