Tiny Finger Point Hand With Heart
본문 바로가기
Data Science

데이터 사이언스, 누구냐 넌.

by yoondii 2023. 3. 31.
728x90
반응형

정보의 바다에서 사는 우리는 모든 정보를 직접 분석하면서 살 수 없다. 그리고 방대한 양의 정보를 분석과 정제 없이는 원하는 정보를 찾을 수 없다. 이러한 상황에서 사람들은 또 하나의 분야를 만들었다. 그것이 바로 '데이터사이언스'이다.

 

내가 대학을 다닐 때만 해도 빅데이터가 굉장한 이슈였다. 데이터가 너무 많다 보니 그 많은 양의 데이터를 관리할 수 있는 새로운 기술이 생겨났다고 말이다. 벌써 거의 5~6년 전의 얘기였는데, 데이터에 관한 이슈는 아직도 현재진행 중이다.

 

데이터 사이언스, 개발을 공부하면서 처음 들어본 단어였다. 사실 처음에는 그렇게 큰 관심은 없었다. 데이터의 중요성을 잘 몰라서 그랬던 것 같다. 하지만 최근 들어 AI, chatGPT 등 다양한 데이터를 활용한 기술들이 나타나면서 데이터 사이언스의 관한 관심이 더욱 커지고 있는 것을 체감하고 있다. 


Data Science

데이터 사이언스는 비즈니스에 대한 의미 있는 인사이트를 추출하기 위한 데이터 연구로서, 수학, 통계, 인공 지능 및 컴퓨터 공학 분야의 원칙과 사례를 결합하여 대량의 데이터를 분석하는 종합적인 접근 방식이다. 

 

위키백과에서는 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야라고도 한다.

 

주로 통계학, 수학 등을 사용하여 데이터를 분석하고, 프로그래밍 언어로는 R과 PYTHON을 주로 사용한다.


Data Science Process

상황에 따라서 달라지긴 하지만 대부분은 아래의 순서대로 이루어진다.

 

  1. 1. 문제 정의하기
  2. 2. 데이터 모으기
  3. 3. 데이터 다듬기
  4. 4. 데이터 분석하기
  5. 5. 데이터 시각화 및 커뮤니케이션

1. 문제 정의하기

해결하고자 하는 문제를 정의한다.

이 단계에서는 해결하고자 하는 게 무엇인지, 언제까지 어떤 결과물을 얻을 것인지, 어떤 방식으로 데이터를 활용할 것인지 등을 설정한다.

아무 목적 없이 데이터를 살펴보면, 의미 있는 발견을 하기 어렵고 방향을 잃기 쉽다.

 

1. 목표 설정

2. 기간 설정

3. 평가 방법 설정

4. 필요한 데이터 설정


2. 데이터 모으기

필요한 데이터를 모을 수 있는 방법을 찾기.

누군가 이미 모아 놓은 데이터를 그대로 사용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아볼 수도 있고, 혹은 웹사이트에서 직접 데이터를 수집할 수도 있다.

1. 웹 크롤링

2. 자료 모으기

3. 파일 읽고 쓰기


3.데이터 다듬기

데이터의 퀄리티를 높여서 의미 있는 분석이 가능하게끔 한다.

일반적으로 우리가 수집한 데이터에는 수많은 문제점들이 있다. 이런 문제점들로 인해 분석 자체가 불가능할 수도 있고, 혹은 분석을 하더라도 잘못된 결론으로 이어질 수도 있다.

“쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)”라는 표현이 있을 정도로 원하는 데이트를 찾으려면 먼저 데이터를 다듬어야 한다.

 

1. 데이터 관찰하기

2. 데이터 오류 제거

3. 데이터 정리하기


4. 데이터 분석하기

준비된 데이터로부터 의미를 찾기.

이 과정은 통계를 이용해서 수치적으로도 할 수도 있고, 수십 가지의 그래프를 그려보면서 탐색할 수도 있다.

우리가 처음 설계했던 방식대로 데이터를 활용해서 원하는 결과를 도출해 내야 한다. 중요한 단계이다.

 

1. 데이터 파악하기

2. 데이터 변형하기

3. 통계 분석

4. 인사이트 발견

5. 의미 도출


5. 커뮤니케이션

분석 결과를 다른 사람들에게 전달한다.

어떤 문제를 해결하려 했는지, 어떻게 데이터를 모았는지, 어떤 방식으로 어떤 인사이트를 얻었는지 등을 다른 사람들에게 전달해야 한다. 적절한 시각화를 통해 소통을 원활히 할 수 있다.

 

1. 다양한 시각화

2. 커뮤니케이션

3. 리포트


많은 기업들에서 데이터사이언스에 대한 정리를 해놓았으니 아래의 링크들도 확인해 보는 것이 좋다.

 

https://aws.amazon.com/ko/what-is/data-science/

 

데이터 과학이란 무엇인가요? - 데이터 과학 설명 - AWS

데이터 과학은 비즈니스에 대한 의미 있는 인사이트를 추출하기 위한 데이터 연구로서, 수학, 통계, 인공 지능 및 컴퓨터 공학 분야의 원칙과 사례를 결합하여 대량의 데이터를 분석하는 종합적

aws.amazon.com

https://www.ibm.com/topics/data-science

 

What is Data Science? | IBM

Data science is a multidisciplinary approach to gaining insights from an increasing amount of data. IBM data science products help find the value of your data.

www.ibm.com

 

728x90
반응형

댓글