BLOG

글로벌  최고의 솔루션과 다양한 경험을 가진 업계의 데이터전문가들이 최고의 서비스를 제공해 드립니다.

BigxData, News Blog 

Blog

Tableau Prep에서 할 수 있는 일 (1)

안녕하세요 Bigxtar입니다. 


오늘 소개 드리고자 하는 것은 Tableau Prep에서 데이터를 정리하는 방법입니다. 


실습 데이터는 행정안전부에서 제공하는 주민등록인구통계 데이터입니다. 

실습하고자 하시는 분들은 다음 페이지에서 '연령별 인구현황' 섹션을 선택한 다음에 데이터 다운로드 받아주세요

https://jumin.mois.go.kr/index.jsp


참고로 Bigxtar는 

1) 2008년부터 2020년까지 매년 12월 데이터를 다운로드 받았습니다. 

2) 그리고 Excel에서 2008~2020까지 총 13개의 시트를 만들어 해당 연도에 다운로드 받은 데이터를 연도별로 넣습니다. 

3) Tableau Prep Builder에서 데이터를 Excel 커넥터를 이용해 연결합니다. 


여기서 잠깐!

해당 주민등록인구통계는 2020년에는 기존에 있던 행정기관이 행정기관(명칭)과 '행정기관코드'로 각각 분리가 되어 있으나

2008년부터 2019년까지는 행정기관명과 코드가 함께 붙어 있습니다. 

또한 셀 병합 등도 2008~2019까지는 동일하나 2020부터는 다를 수 있습니다. 

(만약에 여러분들이 다운로드 받으신 데이터가 2008~2020까지 모두 동일한 포맷이라면 다음과 같은 사항은 고민할 필요는 없을 수 있습니다.)


여기에서는 데이터 포맷이 서로 다른 형태를 어떻게 처리하는지를 보여드리고자 합니다. 

4) 우선 개별 시트에서 2008, 2009 시트(테이블)을 유니온 연결하고자 합니다. 하나씩 수동으로 유니온 연결해도 되지만, 여기에서는 10년 단위로 유니온 연결하겠습니다. 

와이들카드 유니온 설정을 한 다음에 일치 패턴에 '200*'을 입력합니다. 즉 테이블 명에서 '200*'으로 시작하는 테이블을 모두 유니온 연결하겠다는 뜻으로, 총 13개 테이블 중에서 '200*'으로 시작하는 테이블인 2008, 2009 테이블이 유니온 연결됩니다.  

 

5) 이번에는 2010년대 테이블을 유니온 연결하겠습니다. 

왼쪽 테이블에서 2010 테이블을 캔버스에 넣고 여러 파일 > 와일드카드 유니온 > 일치 패턴 : '201*'을 입력합니다. 

그러면 201*로 시작하는 2010 ~ 2019 테이블이 유니온 연결됩니다. 


6) 이번에는 2020년 테이블을 드래그해서 캔버스에 놓습니다. 


7) 앞에서도 언급한 대로 2008~2009, 2010~2019 두 개의 유니온은 데이터 원본의 생김새가 동일하기 때문에 이 둘을 다시 유니온 하겠습니다. 


여기서 다시 잠깐!

Q) 처음부터 2008~2019까지 총 12개 유니온을 한번에 할 수는 없나요?

A) Tableau Prep에서는 개별 시트를 끌어서 수동으로 유니온할 때 한번에 10개만 가능합니다. 즉 2008부터 유니온해서 한 곳에서 수동으로 끌어와서 유니온할 경우 2017까지 총 10개까지만 가능하기 때문에 이런 방식보다는 데이터가 2020 이후에 2021, 2022로 매년 계속 쌓인다는 가정 하에 10년 씩 자르는 것이 관리 상 좋을 것 같아 위와 같이 10년 씩 와일드카드 유니온을 적용한 것입니다. 


8) 2020 테이블도 이전의 두 개 테이블과 다시 한번 유니온 연결을 합니다. 


9) 이번에는 셀 병합 처리되어 칼럼(필드명)으로 제대로 인식 안되고 있는 필드들을 정리하겠습니다. 왼쪽 패널에서 '테이블' 아래에 '데이터 해석기 사용'이 있습니다. 이것을 클릭하면 Tableau Prep에서 데이터를 알아서 해석해서 깔끔하게 정리한 결과를 반환하게 됩니다.  


10) 수치에 해당하는 연령별 인구수에 대한 값들은 열 방향으로 이뤄져 있는 것을 데이터 분석에 용이하도록 피벗 적용을 합니다. 


11) 마지막으로 데이터 연결 및 정리 그리고 변환한 것을 Tableau Desktop으로 활용하기 위해서는 '출력'을 적용합니다.

그리고 출력을 한 추출 파일을 Tableau Desktop에서 연결해서 다음과 같이 간단하게 시도별 연간 인구수 변화를 색상으로 표현해봤습니다. 


Bigxtar의 Insight >

1) 처음으로 2020년에 우리나라 인구수가 감소된 것을 총합계에서 확인할 수 있습니다.

2) 서울은 2011년부터 매년 인구가 줄어들고 있습니다. 

3) 인천은 매년 인구수가 증가하다가 2020년에 처음으로 감소했습니다. 

4) 이 밖에도 부산, 대구 등의 주요 도시의 인구수는 계속 하락하고 있습니다. 

5) 2013년 탄생한 세종특별자치시는 매년 인구수가 증가하고 있는 반면에 인근 지역인 대전광역시는 세종시는 매년 감소하고 있는 추세인 것을 확인할 수 있습니다.  


Tableau Prep Builder를 활용한 데이터 연결 및 정리는 손으로 가지고 놀 수 있을 만큼 쉽게 하실 수 있습니다. 


Tableau Prep Builder에서 Flat file 외에도 DB와 연결해서 복잡한 데이터를 정리하고

Tableau Desktop에서는 시각적 분석을 통한 인사이트를 찾는 데 집중해 보시기 바랍니다. 

 


이상 Bigxtar였습니다.