본문 바로가기

KNOU(방송대 학과공부)/정보처리입문

1/15, 2/15

1강 데이터분석과 컴퓨터 

 

정보가 정치/경제/사회를 움직이는 주요 요소이며 컴퓨터활용 능력을 통해서 정보를 활용하는 능력은 중요하다. 

그러한 능력 중 데이터 분석능력은 수학적 지식과 통계적 통찰에 기반해 있으며 데이터 분석 SW를 잘 이용하는 것이 중요하다. 

 

SW: SAS(학생에게는 무료로 배포하고 있다.) R(무료이며 좋은 기능들이 많다.) SPSS, 엑셀.. 

 

직접 실습을 통해서 각 SW들이 어떻게 동작하는지 배우자. (워크북 보고 ) 

 

2강 데이터 입력과 점검 

 

-데이터의 개념

DATUM(단수)-DATA(복수)->정리된 정보 -> 유용성이 입증된 정보는 지식  

데이터는 어떤 주제에 대하여 구조화된 정보 

분석에 알맞은 일정한 규칙과 형태로 수집정리됨

조사나 실험으로 수집..( 데이터 수집방법: 조사 실험 관측 )

수치적 계산이나 통게적 분석에 알맞은 데이터 -> 통계적 데이터 

데이터분석의 목적: 정확한 현상파악(집단의 특징)/ 인과관계 규명/ 법칙성 발견 -> 미래상황 예측으로 합리적인 의사결정에 도움. 

 

 

-측정의 수준과 데이터 종류

측정: 각 조사단위에 수치를 부여하는 작업 (통계적 데이터를 만들기 위해) 

측정된 전체 자료를 데이터 

 

용어

케이스(case, 레코드) 데이터 세트에서 하나의 조사단위에 대한 정보의 집합체 

ex) a는 뭐고 뭐고 뭐다. 

변수(variable, 필드) 각 조사단위(ex 나이, 교육정도, 월수입)로부터 측정된 개별적인 속성

ex) 컬럼.

결측값: . (missing value)

 

측정의 수준(정보의 수준이 달라짐-> 변수를 분석하는 방법도 달라짐) 

명목척도: 범주 구분이 목적(ex 남자는 1 여자는 2, 운동선수 등번호) 

순서척도(서열척도): 서열 대소관계의 의미만 있음(ex 만족도, 성적abc ) 

구간척도: 0을 정의할 수 없고 서열간 간격 같도록 부여, 2배나(x) 00가 크다(ex 온도)

비율척도:  차이뿐 아니라 0도 의미가 있음. (ex 소득, 체중, 신장, 시간, 방문객수) 

 

데이터의 구분

측정수준에 따라 

질적변수: 명목, 순서

양적변수: 연속형 변수(구간척도, 비율척도)- 임의의 값을 취할 수 있음. /이산형도 가능

 

변수의 수에 따른 

일변량 데이터 

다변량 데이터

 

 

 

-데이터의 입력과정

부호화(코딩): 통계적 분석에 따라 일정한 원칙에 따라 각 응답의 숫자르 부여하는 과정

연속형은 이미 숫자라서 그대로 입력가능 

여러사람이 참여하는 경우 부호화 지침서(code book). 

 

자유형식: 공란으로 구분 

고정형식: 각 변수가 위치할 열을 정한 후 입력

 

데이터를 입력하고 불러오는 과정이 필요함. 

 

-입력된 데이터에 대한 점검 

디버깅: 입력상 실수나 조사상 오류(BUG)를 찾아 수정할 목적으로 데이터 세트를 검토하고 분석하는 것.

데이터 입력 오류 점검(데이터가 큰 경우) :각 변수의 입력범위를 확인(남자는 1 여자는 2 그런데 3이 있네?), 변수들의 논리적 일관성 검토(남자는 자궁암에 걸리지 않는다.)