BLOG

빅스데이터의 최신 소식을 전해드립니다. 

BigxData, News Blog 

Blog

Tableau Prep에서 할 수 있는 일 (2)


안녕하세요 Bigxtar입니다. 


오늘 소개 드릴 내용은 웹 데이터를 모아 Tableau Prep Builder에서 정리하는 방법입니다. 


오늘은 Sports 데이터를 활용해보겠습니다. 


손흥민 선수가 활약하고 있는 English Premier League의 순위표를 불러와서 

Prep에서 데이터 연결, 변형 및 정리를 진행하겠습니다.  


그림 1. 약 20년 치 데이터를 Tableau Prep Builder에서 정리한 모습입니다.


1. 데이터 원본은 Google Sheets를 통해서 수집했습니다.

다음 그림은 2020-2021 시즌 테이블이며, 이런 테이블이  2003-2004 시즌부터 수집했습니다. 


그림 2. 2020-2021 칼럼은 현재 순위, 팀명 요약, 팀명 풀네임이 섞여 있습니다.


그림 3. 데이터 원본을 연결한 다음 테이블로 되어 있는 각 시즌별 데이터를 연결한 준비를 마칩니다.

 


각 테이블 연결은 다음과 같이 진행합니다. 


2. 시즌별 테이블을 캔버스에 올립니다. 

3. 이것을 10년 마다 (10개 테이블씩) 유니온 연결합니다. 2000년대, 2010년대, 2020년대까지 총 3개 유니온 완성이 되면

4. 3개 유니온(10년 짜리)를 다시 유니온합니다.


그리고 나서 모두 유니온 된 결과를

5. 피벗 적용합니다. 

그림 4. 열을 행으로 피벗 적용합니다.


6. 팀명에서 순위와 팀명 약어, 팀명 풀네임이 혼재되어 있는데 우선 숫자들은 모두 정리하는 기능을 활용합니다. 

필드명 옵션 > 정리 > '숫자 제거' 기능 적용

그림 5. Team 필드에 앞에 붙어 있는 1~20까지 숫자를 제거합니다.


7. 이번에는 팀명 앞에 3글자의 약어를 제거하겠습니다. 이번에는 다음과 같이 계산식을 적용합니다.

예를 들어 'TOTTottenham Hotspur'에서 맨 앞에 3글자인 약어를 제거하는 방법입니다. 

RIGHT                      오른쪽부터,

[Team]                    [Team] 필드에서, 

LEN([Team])        [Team] 필드값의 길이에서, 

-3                               (오른쪽부터 시작하니, 마이너스는 왼쪽부터) 앞에서 3개는 뺀다

 그림 6. 필드값을 고려해서 계산식을 어떻게 만들지 고민해봅시다.


8.  현재까지 결과물을 'Tableau Desktop에서 미리 보기' 한 다음에 간단한 테이블을 만듭니다.


By the way... 그런데 7번째 값인 Southampton은 앞에 T가 붙어 있습니다. 

이유는 Southampton의 약어는 다른 팀들과 다르게 SOUT로 네 글자였기 때문입니다. 


따라서 현재 Tableau Desktop에서 작업하던 것은 저장 (추후에 새로운 추출 파일로 교체)하거나 

저장하지 않고 닫습니다. (추후에 처음부터 새로 작성)

그림 7.  바로 추출 파일로 만들지 않고 Tableau Desktop에서 미리 보기 한 다음 충분한 검증 후에 추출 파일로 만듭니다.


9. 다시 Tableau Prep Builder에서 Club 필드 값 중 수정해야 할 

TSouthampton 필드값을 더블 클릭 후 맨 앞에 있는 'T'는 제거합니다.

그림 8. Desktop과 달리 Prep에서는 간단하게 필드명을 임의로 간단하게 편집할 수 있습니다. 


10. 다시 Tableau Desktop에서 다음과 같이 제대로 나오는 것을 볼 수 있습니다. 

그림 9. Southampton이 제대로 나타납니다.



이번 Prep에서 할 수 있는 일에서는 

1. 약 20개의 테이블을 10년 단위씩  3개로 유니온, 다시 그 3개를 1개로 유니온

2. 피벗 적용

3.  숫자 정리

4. 계산식으로 데이터 정리

5. 필드값 변경

으로 데이터를 간단하게 정리하는 것을 실습 했습니다. 


이상 Bigxtar였습니다.