1강 데이터분석과 컴퓨터
정보가 정치/경제/사회를 움직이는 주요 요소이며 컴퓨터활용 능력을 통해서 정보를 활용하는 능력은 중요하다.
그러한 능력 중 데이터 분석능력은 수학적 지식과 통계적 통찰에 기반해 있으며 데이터 분석 SW를 잘 이용하는 것이 중요하다.
SW: SAS(학생에게는 무료로 배포하고 있다.) R(무료이며 좋은 기능들이 많다.) SPSS, 엑셀..
직접 실습을 통해서 각 SW들이 어떻게 동작하는지 배우자. (워크북 보고 )
2강 데이터 입력과 점검
-데이터의 개념
DATUM(단수)-DATA(복수)->정리된 정보 -> 유용성이 입증된 정보는 지식
데이터는 어떤 주제에 대하여 구조화된 정보
분석에 알맞은 일정한 규칙과 형태로 수집정리됨
조사나 실험으로 수집..( 데이터 수집방법: 조사 실험 관측 )
수치적 계산이나 통게적 분석에 알맞은 데이터 -> 통계적 데이터
데이터분석의 목적: 정확한 현상파악(집단의 특징)/ 인과관계 규명/ 법칙성 발견 -> 미래상황 예측으로 합리적인 의사결정에 도움.
-측정의 수준과 데이터 종류
측정: 각 조사단위에 수치를 부여하는 작업 (통계적 데이터를 만들기 위해)
측정된 전체 자료를 데이터
용어
케이스(case, 레코드) 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체
ex) a는 뭐고 뭐고 뭐다.
변수(variable, 필드) 각 조사단위(ex 나이, 교육정도, 월수입)로부터 측정된 개별적인 속성
ex) 컬럼.
결측값: . (missing value)
측정의 수준(정보의 수준이 달라짐-> 변수를 분석하는 방법도 달라짐)
명목척도: 범주 구분이 목적(ex 남자는 1 여자는 2, 운동선수 등번호)
순서척도(서열척도): 서열 대소관계의 의미만 있음(ex 만족도, 성적abc )
구간척도: 0을 정의할 수 없고 서열간 간격 같도록 부여, 2배나(x) 00가 크다(ex 온도)
비율척도: 차이뿐 아니라 0도 의미가 있음. (ex 소득, 체중, 신장, 시간, 방문객수)
데이터의 구분
측정수준에 따라
질적변수: 명목, 순서
양적변수: 연속형 변수(구간척도, 비율척도)- 임의의 값을 취할 수 있음. /이산형도 가능
변수의 수에 따른
일변량 데이터
다변량 데이터
-데이터의 입력과정
부호화(코딩): 통계적 분석에 따라 일정한 원칙에 따라 각 응답의 숫자르 부여하는 과정
연속형은 이미 숫자라서 그대로 입력가능
여러사람이 참여하는 경우 부호화 지침서(code book).
자유형식: 공란으로 구분
고정형식: 각 변수가 위치할 열을 정한 후 입력
데이터를 입력하고 불러오는 과정이 필요함.
-입력된 데이터에 대한 점검
디버깅: 입력상 실수나 조사상 오류(BUG)를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석하는 것.
데이터 입력 오류 점검(데이터가 큰 경우) :각 변수의 입력범위를 확인(남자는 1 여자는 2 그런데 3이 있네?), 변수들의 논리적 일관성 검토(남자는 자궁암에 걸리지 않는다.)