[패스트캠퍼스 데이터 분석 부트캠프] 1주차_엑셀 데이터 분석 기초

2024. 4. 8. 17:31패스트캠퍼스 BDA 13기

깜푸의 패스트캠퍼스 데이터분석 부트캠프 1주차 학습일지

 

빅데이터 이해 & 데이터 리터러시 교육

박서희 강사님

우리 일상 속 Digital Transformaiton

: 다이어리, 캘린더, 스터디 플래너 등 → notion, good note, google calendar 등

여러 분야에서 DT가 실현되고 있으며 많은 기업과 여러 기술들로 부터 많은 양의 데이터가 생성됨에 따라,

데이터에 기반한 가치 창출이 서비스 사업 경쟁력의 원천이 된다.

따라서 데이터에 기반한 의사결정 data driven 경영을 시행하고 있다.

최근은 ChatGPT 와 같은 생성형 AI 에 대한 관심이 증가하고 있는 추세

알고리즘을 사용하여 방대한 양의 데이터를 분석하여 패턴을 학습하고 해당 학습을 기반으로 새로운 출력을 생성하는 방식으로 최근 트렌드가 변화하고 있다.

*생성형 AI 란? 입력된 데이터를 통해 사용자가 원하는 결과를 유추해 결과물을 만들어내는 AI 알고리즘 (텍스트, 오디오, 비디오 등)

또한 생성 AI 플러그인 생태계가 출현하고 있다.

*플러그인: 프로그램이나 소프트웨어에 추가 기능을 제공하기 위해 확장 모듈로서 동작하는 소프트웨어 구성요소

* 원래의 소프트웨어에 연결되어 특정 작업을 수행하거나 기능을 확장할 수 있음

데이터 관련 직무

: 데이터 엔지니어, 데이터 분석가, 머신러닝 엔지니어, 딥러닝 엔지니어, 데이터 사이언티스트, PA, PM, BA 등..

최근은 자신의 직무 분야에 데이터 분석을 활용하여 인사이트를 도출할 수 있는 Citizen Data Scientist 개념이 등장

>>> 본격적으로 취준을 시작하는 입장에서 세부 직무 선택이나 준비해야될 자격증, 대학원 등 고민했던 것들이 많았는데, 현직자 특강을 들으면서 현재 데이터 시장의 트렌드와 준비하는 방법들을 알게 되어서 유익했다. 앞으로 어떻게 우선순위를 정해서 준비해야할 지 생각 정리에 도움이 됐다 !


엑셀 데이터 분석 기초

이동훈 강사님

4차 산업혁명 시대는 기술을 활용해 오프라인 세계와 똑같은 세계를 온라인 상에 구현하고 두 세계를 자유롭게 넘나드는 세상을 일컫는다. Digital Twin

넘쳐나는 데이터의 시대에서 필요한 데이터를 선별하고 활용할 수 있는 역량이 중요 → Digital Literacy

그렇다면 왜 엑셀이 중요한가?

기업 및 기관 등의 조직에서 다양한 루트에서 다양한 형태의 많은 데이터가 수집되는데 대부분 이런 데이터를 .csv .xlsx 와 같은 엑셀 데이터 형태로 접하게 되므로

[엑셀 데이터의 종류]

-값 Value : 텍스트(문자)(계산X) / 숫자(계산O)

: 표시 형식이 [일반]일 때 텍스트 데이터는 왼쪽, 숫자 데이터는 오른쪽으로 정렬

-수식 Formula : 사칙연산/논리연산 등 계산식, 함수

-서식 Format : 글꼴, 셀 서식 ex) 글꼴 색/크기 , 셀 배경색/테두리 등

[붙여넣기 기능]

엑셀의 모든 셀에는 서식이 적용되어 있으므로 ctrl c → ctrl v 는 셀의 값, 수식, 서식을 모두 붙여넣기한다

>>> 빠른실행도구모음을 등록하여 해결 가능

빠른실행도구모음에 등록하여 alt 2, 3, 4 사용하여 쉽게 수식/값/서식만 붙여넣기를 할 수 있다.

*값 붙여넣기를 사용하는 경우

: 외부에 자료를 공유할 때 함수를 공개하고 싶지 않거나, 방대한 데이터가 쌓였을 때 변하지 않는 데이터를 함수가 아닌 값으로 고정해주기 위해서 사용할 수 있다.

*행 숨기기 : 범위 지정 + Ctrl + 9

*행 숨기기 취소 : 숨겨진 행 앞뒤로 범위 선택 + Ctrl + Shift + 9

*열 숨기기 : 범위 지정 +Ctrl + 0

→ 행 숨기기를 한 뒤에 숨긴 행을 포함하여 서식을 변경하면, 숨기기 취소했을 때 숨겨져있던 행도 변경된 서식이 함께 적용됨

→ 화면에 보이는 셀 선택 키(alt + 5)를 사용한 뒤 서식을 변경하면, 숨겨져 있는 행은 변경된 서식이 적용되지 않음

→ 행 숨기기를 한 뒤에 '화면에 보이는 셀 선택' - Ctrl C + Ctrl V 하면 숨겨진 행은 포함되지 않은 나머지 셀만 복붙됨

*틀 고정은 행row 위쪽, 열column 왼쪽을 기준으로 고정된다 (단, 마우스로 행이나 열 전체를 잡을 것)

 

*차트의 제목을 차트 위쪽의 가운데에 위치하게 만들고 싶다면, '병합하고 가운데 맞춤' 사용 X

→ 차트의 너비만큼 범위를 잡고 Ctrl + 1을 눌러 셀 서식을 들어가서 '맞춤'탭에 '선택한 영역 가운데로 맞춤'으로 바꿔주

[엑셀 필수 단축키]

셀 서식 열기 : Ctrl + 1

글씨 굵게 : Ctrl + B

셀서식-숫자표시형식 : Ctrl + Shift + !

셀서식-백분율표시형식 : Ctrl + Shift + %

셀서식-날짜표시형식 : Ctrl + Shift + #

수식으로 보기 : Ctrl + ~

선택하여 붙여넣기 : Ctrl + Alt + V (값/수식/서식 선택할 수 있음)

행 선택하기 : Shift + Space bar

열 선택하기 : Ctrl + Space bar

행/열 삽입 : Ctrl + Shift + +

행/열 삭제 : Ctrl + -

행/열 마지막으로 이동 : Ctrl + 방향키

A1 셀로 이동 : Ctrl + (Fn)Home

셀 범위 지정하기 : Shift + 방향키

연속된 데이터 범위 지정 : Ctrl + Shift + 방향키

모두 선택 : Ctrl + A

필터 설정 : Ctrl + Shift + L / Alt + D + T

셀 편집 : F2

셀 내 줄 바꾸기 : Alt + Enter

함수 입력 자동완성 : Tab

절대 참조 설정 : F4

[사용자 지정 기호]

# : 숫자의 대표 값, 의미 없는 0은 생략

0 : 숫자의 대표 값, 의미 없는 0도 표시

@ : 문자의 대표 값

, : 1000단위 마다 쉼표 / 1000단위 반올림

>>> 사용자 지정 구문 - 첫번째 조건 만족할 때 ; 두번째 조건 만족할 때 ; 모든 조건에 만족하지 않을 때

ex) [빨강][>=2000]#,##0 ; [파랑][>=1000]#,##0 ; #,##0

[함수 정리]

COUNT함수

=COUNT(범위)

범위 안에 숫자 데이터가 들어있는 셀의 개수

=COUNTA(범위)

범위 안에 데이터가 들어있는 셀의 개수

(비어있지 않은 셀)

=COUNTBLANK(범위)

범위 안에 비어있는 셀의 개수

=COUNTIF(범위, "조건")

특정 범위에서 하나의 조건을 만족하는 셀의 개수

=COUNTIFS(범위1,"조건1",범위2, "조건2", ...)

특정 범위에서 2개 이상의 조건을 동시에 만족하는 셀의 개수

IF함수

: 조건을 가정하고 조건에 만족하는 값과 만족하지 않는 값으로 데이터를 분류할 때 사용, 중첩 가능

=IF(조건, 만족할 경우 표시할 값, 만족하지 않을 경우 표시할 값)

ex) 국어 점수가 90점 이상이면 "합격", 그렇지 않으면 "불합격"으로 분류하라

=IF(A1>=90, "합격", "불합격")

ex) 백화점 고객 매출이 5,000 이상이면 "Platinum", 2,000 이상이면 "Gold", 나머지는 "Silver"로 분류하라

=IF(C5>=5000, "Platinum", IF(C5>=2000, "Gold", "Silver"))

VLOOKUP함수

: 열을 기준으로 N번째 있는 데이터를 찾아오는 함수 (V:VERTICAL)

: 현재 작성 중인 표와 원래 데이터(불러오고자하는 데이터가 있는 테이블) 간의 공통 기준 열이 있어야함

: 불러오고자하는 데이터가 원래 데이터의 공통 기준 열 오른쪽에 있어야함 (공통 기준 열을 기준으로 1부터 번호가 매겨지므로)

=VLOOKUP(찾을 데이터, 원래 데이터의 범위, 불러올 데이터의 열 번호, 0)

마지막 0 은 정확히 일치할 때만 데이터를 불러올 것이라는 약속,

1을 적으면 근사치 값을 불러옴

MATCH함수

: 찾고 싶은 값이 한 행/열에서 몇번째에 있는지 숫자로 알려줌

=MATCH(찾고싶은값, 찾고싶은값이 포함된 단일 행/열의 범위, 0)

INDEX함수

: 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴

=INDEX(범위, 범위 내 행 번호, 범위 내 열 번호)

SUMIF(S)함수

: 특정 조건에 맞는 데이터들의 합계

=SUMIF(조건 범위, 조건, 더할 값들의 범위)

=SUMIFS(더할 값들의 범위, 조건 범위1, 조건1, 조건 범위2, 조건2, ...)

*SUMIFS에서는 더할 값들의 범위를 우선 지정해줘야함. 헷갈리니까 한개의 조건도 SUMIFS 써줘도 됨

SUMPRODUCT함수

: 인수(배열)끼리 곱하여 곱들의 합계를 계산

=SUMPRODUCT(배열 인수1, 배열 인수2)

IFERROR함수

: 입력된 수식이나 함수의 결과가 오류이면 원하는 값을 출력 해줌

=IFERROR(수식이 입력된 셀, "오류")

→오류O = "오류"

→오류X = 수식의 결과값

FIND함수

: 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력

: 띄어쓰기까지 포함하여 카운팅하며 대소문자를 구분함

SEARCH함수

: 띄어쓰기까지 포함하여 카운팅하며 대소문자를 구분하지 않음

=LEFT(전체 텍스트, 왼쪽부터 불러올 문자 수)

=RIGHT(전체 텍스트, 오른쪽부터 불러올 문자 수)

=MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자 수)

=DAYS(종료일, 시작일)

=DATEDIF(시작일, 종료일, 날짜기준 D/M/Y ..)

* 종료일을 기간에 포함시키고자한다면 수식에 +1

=NETWORKDAYS.INTL(시작일, 종료일, [주말], [휴무일]

*[주말]을 다른 요일로 바꾸려면 1 휴일, 0 근무일로 Weekend인수를 만들어줘야함

ex) 1100000 = 월화 휴무, 수목금토일 근무

[엑셀 기능]

*텍스트 나누기 [데이터] - [텍스트 나누기]

: 1개의 셀에 있는 데이터를 2개 이상의 셀에 나누는 기능

: 탭, 세미콜론, 쉼표, 공백, 기타(사용자가 지정하는 기호)를 기준으로 텍스트를 나눌 수 있음

*중복된 항목 제거하기 [데이터] - [중복된 항목 제거]

: 특정 열에 중복되어있는 데이터를 1개씩만 남기고 제거

: 기능을 적용할 범위를 먼저 지정해준 다음 중복된 항목 제거 버튼을 눌러 중복 값을 제거할 기준 열을 선택

*고급 필터

: 여러 조건을 만족하는 필터를 사용하고 싶을 때 사용

조건을 한 행에 쓰면 AND 조건으로 해당 조건들을 모두 만족한 값만 필터링,

조건을 여러 행에 쓰면 OR 조건으로 해당 조건들을 하나 이상 만족하는 값들을 필터링한다

*데이터 유효성 검사 [데이터] - [데이터 유효성 검사] - [제한 대상], [제한 방법] 지정

: 셀이나 범위에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능

: 제한 대상과 방법을 지정한 뒤, [잘못된 데이터]를 누르면 지정한 조건에 해당하지 않는 데이터들에 빨간 동그라미가 표시된다

*거품형 차트

: 숫자의 크기나 비율을 거품으로 나타내는 차트

: 거품의 위치와 거품의 크기, 색 등을 활용해 정보를 표현

: 빈 셀에 포인터를 두고 [삽입] - [거품형 차트] 선택하여 빈 차트를 만든 뒤, 데이터 선택을 통해 X값, Y값, 거품 크기를 정해준다

*폭포형 차트

: 숫자의 증가, 감소분 만큼을 막대 그래프로 표현

*조건부 서식

: 특정한 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능

: 선택한 범위의 모든 셀에 특정한 조건에 의한 조건부 서식 적용 가능 (색조, 데이터 막대, 아이콘 집합)

: 범위를 먼저 선택한 뒤, [홈] - [조건부서식] - [규칙 관리], [새 규칙] 으로 생성 가능

*스파크 라인

: 연속된 셀들의 데이터들을 한 셀에 그래프로 나타내주는 기능

빨간 테두리 부분