Part 1. 데이터 이해 (20%)
Part 2. 데이터분석 기획 (20%)
Part 3. 데이터 분석 (60%) - 가장 중요!
* 데이터란?
- 저장이나 처리에 효율적인 형태로 변환된 정보(information)
- 존재적 특성: 객관적 사실 ex. 국어 100점, 수학 95점
- 당위적 특성: 추론/예측/전망/추정을 위한 근거로 기능 ex. 평균 95점
* 데이터 유형
- 정성적 데이터: 언어, 문자 등
- 정량적 데이터: 수치, 기호, 도형 등
⭐️ 정형/비정형/반정형 데이터
- 정형(structured) 데이터: 고정된 틀이 있고, 연산 가능 ex. CSV, 엑셀, 관계형 데이터베이스 등
- 비정형(unstructured) 데이터: 고정된 틀이 없고, 연산 불가능 ex. NoSQL, 영상, 음성 등
- 반정형(semi-structured) 데이터: 고정된 틀이 있지만, 연산 불가능 ex. HTML, JSON, XML 등
⭐️ 암묵지와 형식지
- 암묵지: 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식, 공유와 전달 어려움 ex. 자전거 타기, 운전 등
- 형식지: 교과서, 매뉴얼 등 형상화된 지식, 공유할 수 있는 지식
- 표출화 ➡️ 연결화 ➡️ 내면화 ➡️ 공통화 ...
* DIKW 피라미드
- 데이터(Data): 타 데이터와 상관관계가 없는 순수한 수치나 기호
ex. A는 국어를 100점, B는 75점 받았다.
- 정보(Information): 데이터의 가공, 상관관계간 이해를 통해 패턴을 이해하고 의미를 부여한 데이터
ex. A 국어 점수가 B 국어 점수보다 높다.
- 지식(Knowledge): 상호 연결된 정보 패턴을 이해하여 추론한 것
ex. 비교적 낮은 점수를 받은 B는 더 열심히 공부해야겠다.
- 지혜(Wisdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어(예측)
ex. A의 다른 과목 점수도 B보다 높을 것이라고 판단한다.
* DB vs. DBMS
- DB: 데이터 집합체
- DBMS: 데이터베이스를 관리하는 프로그램
* 데이터베이스의 종류
- 관계형 데이터베이스(Relational Database, RDB)
: 데이터를 행과 열로 표현된 표형식 - SQL 사용하여 데이터를 조작하고 검색
- 비관계형 데이터베이스(NoSQL)
: 관계형 데이터베이스가 아닌 다른 형태의 데이터베이스 관리 시스템 - 다른 데이터 모델과 기술을 사용하여 데이터를 저장, 검색, 관리
: 비정형 데이터, 대용량 데이터 분석/분산 처리 용이
⭐️ 데이터베이스 특징
- 통합된 데이터(Integrated data): 동일한 내용의 데이터가 중복X, 데이터 중복은 관리상 복잡한 부작용 초래
- 저장된 데이터(stored data): 컴퓨터 기술을 바탕으로 컴퓨터가 접근할 수 있는 저장 매체에 저장
- 공용 데이터(shared data): 다수의 사용자가 다양한 목적으로 데이터를 이용, 대용량화되고 구조가 복잡한 것이 일반적
- 변화되는 데이터(changable data): 데이터의 삽입/삭제/갱신으로 변화하면서도 항상 정확한 데이터 상태를 유지
⭐️ 데이터베이스의 다양한 측면에서의 특징
- 정보의 축적 및 전달 측면(기계)
• 기계가독성: 대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓸 수 있음
• 검색가능성: 다양한 방법으로 필요한 정보를 검색 가능
• 원격조작성: 정보통신망을 통해 원거리에서도 온라인 이용 가능
- 정보 이용 측면(사용)
• 다양한 정보를 신속하게 획득
• 원하는 정보를 정확하고 경제적으로 파악
- 정보 관리 측면(데이터 관리)
• 정보를 일정한 질서와 구조에 따라 정리/저장/검색/관리할 수 있도록
대량의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신에 용이
- 정보기술 발전의 측면
• 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
- 경제/산업적 측면
• 다양한 정보를 필요에 따라 신속하게 제공하고 이용할 수 있는 인프라의 특성을 가지고 있어
경제, 산업, 사회 활동의 효율성을 높이고 국민의 편의를 증진하는 수단
* 기업 내부 데이터베이스
- OLTP(Online Transaction Processing): 정보시스템
• 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
• 데이터 갱신 위주
ex. 주문이 들어올 경우, 이를 처리하고 재고를 업데이트하는 데 사용
- OLAP(Online Analytical Processing): 분석 중심의 시스템
• 데이터 조회 위주 > 모아둔 데이터에 초점
ex. 복잡한 데이터를 분석하여 제품의 판매 추이, 구매 성향 파악 등을 프로세싱
⭐️ 사회기반구조로서의 데이터베이스 - 각 부문별로 어떤 데이터베이스가 있는지 알아두기!
- 물류 부문
- 지리 부문
- 교통 부문
- 의료 부문
- 교육 부문
'ADSP' 카테고리의 다른 글
| [ADSP] #4. 분석 마스터플랜, R (0) | 2025.11.06 |
|---|---|
| [ADSP] #3. 데이터 분석 기획 (0) | 2025.11.02 |
| [ADSP] #2. 데이터의 가치와 미래 (0) | 2025.10.31 |