[함수] CONCAT, UPPER, LOWER 텍스트 함수로 데이터 가공하기
데이터 분석 작업의 80%는 데이터를 ‘분석’하는 시간이 아니라, 지저분한 데이터를 ‘정리(Cleaning)’하는 시간이라는 말이 있습니다. 이 말은 특히 루커 스튜디오로 보고서를 만들 때 뼈아프게 다가옵니다.
가장 흔한 예를 들어볼까요? 구글 애널리틱스(GA4)에서 가져온 소스/매체 데이터에 ‘google’, ‘Google’, ‘GOOGLE’이 모두 섞여있다고 상상해 보세요. 이 상태로 ‘채널 그룹’을 만들거나 필터를 걸면, 루커 스튜디오는 이 세 가지를 전부 다른 데이터로 집계합니다. 당연히 보고서의 신뢰도는 그냥 무너지는 순간입니다.
이때, 99%의 초보자분들이 저지르는 가장 치명적인 실수가 있습니다. 바로 원본인 구글 시트(Google Sheets) 파일을 직접 열어서, 이 값들을 ‘google’로 일일이 수정하는 것입니다.
이건 정말 최악의 방법입니다. 왜냐하면, 내일 새로운 데이터가 ‘GOOGLE’로 또 들어오면, 여러분은 내일도 똑같은 수작업을 반복해야 하기 때문입니다. 제가 겪어보니, 이런 수작업은 밑 빠진 독에 물 붓기와 같았습니다.
1. 왜 원본 데이터를 절대 건드리면 안 되는가?
제가 데이터 분석을 처음 배울 때, 가장 중요하게 배운 원칙이 있습니다. “원본 데이터(Raw Data)는 신성한 것이다.”
원본 데이터는 절대 건드리지 않는 것이 철칙입니다. 원본을 수정하기 시작하면, 나중에 데이터가 틀어졌을 때 그게 원본의 문제인지, 내 수식의 문제인지조차 파악할 수 없게 됩니다. 데이터의 무결성이 깨지는 것이죠.
그렇다면 이 지저분한 데이터는 어떻게 처리해야 할까요?
해결책은 루커 스튜디오의 ‘계산된 필드’ 안에서 데이터를 ‘가상’으로 청소하는 것입니다. 원본은 그대로 두되, 루커 스튜디오가 데이터를 불러올 때만 잠시 깨끗하게 세탁해서 쓰는 개념입니다.
이것이 전문가와 초보자를 가르는 첫 번째 기준입니다. 그리고 이 세탁 작업을 해주는 가장 기본적인 함수가 바로 LOWER와 UPPER입니다.
2. 표준화의 첫걸음: LOWER와 UPPER
이 두 함수는 단순히 글자를 바꾸는 기능이 아닙니다. 중구난방인 데이터를 하나의 기준으로 ‘표준화’하는, 데이터 정제에서 가장 중요한 도구입니다.
- LOWER(필드): 해당 필드의 모든 영문 텍스트를 ‘소문자’로 강제로 바꿔줍니다.
- UPPER(필드): 해당 필드의 모든 영문 텍스트를 ‘대문자’로 강제로 바꿔줍니다.
이게 왜 그렇게 중요할까요? 제가 실제로 겪었던 실패담을 하나 공유해 드릴게요.
GA4 데이터를 가져와서 ‘채널 그룹’을 만들기 위해 CASE 함수로 열심히 수식을 짜고 있었습니다.
- CASE WHEN 소스/매체 = "google / cpc" THEN "구글 유료"
- WHEN 소스/매체 = "facebook / cpc" THEN "페이스북 유료"
- ...
- ELSE "기타"
- END
보고서는 완벽하게 작동하는 것처럼 보였습니다. 그런데 며칠 뒤, 데이터에 ‘Google / cpc’ (G가 대문자)가 딱 하나 들어오면서, 이 항목은 제가 만든 그룹에 포함되지 않고 ‘기타’로 빠져버리는 오류가 발생했습니다.
3. 초보자의 대응 vs. 전문가의 해결책
이때 초보자의 대응은 이렇습니다. CASE 함수를 수정하러 들어가서, ... OR 소스/매체 = "Google / cpc" 라는 조건을 한 줄 더 추가합니다. 이건 최악의 대응입니다. 왜냐하면, 내일 ‘GOOGLE / cpc’가 들어오면 또 수식을 고쳐야 하기 때문입니다.
전문가의 해결책은 근본적으로 다릅니다.
- 수식을 고치는 것이 아니라, ‘계산된 필드’를 새로 하나 만듭니다.
- (여기서 중요한 팁입니다.) 차트 하나만 클릭해서 ‘필드 만들기’를 하지 마세요. 반드시 ‘리소스’ > ‘추가된 데이터 소스 관리’ > ‘수정’으로 들어가서, ‘데이터 소스’ 자체에 필드를 만드세요. 이렇게 해야, 이 데이터 소스를 사용하는 모든 보고서와 모든 페이지에서 이 필드를 재사용할 수 있습니다.
- 필드 이름은 소스/매체 (표준화)처럼, 내가 알아볼 수 있게 짓습니다.
- 수식 입력창에 LOWER(소스/매체) 라고 입력하고 저장합니다.
- 이제 google / cpc, Google / cpc, GOOGLE / cpc가 모두 google / cpc로 통일된, 완벽하게 깨끗한 새로운 필드가 탄생했습니다.
이제부터 우리는 절대 원본 소스/매체 필드는 쳐다보지도 않고, 방금 만든 이 소스/매체 (표준화) 필드만 사용하면 됩니다. CASE 함수도 이 새로운 필드를 기준으로 만들면, 다시는 데이터가 누락될 일이 없습니다. 이건 선택이 아니라, 데이터를 다루는 사람의 기본 원칙입니다.
4. 흩어진 조각을 하나로: CONCAT
CONCAT 함수는 여러 개의 텍스트 필드를 하나의 텍스트로 합쳐주는, 아주 유용한 기능입니다. 이건 단순히 텍스트를 합치는 것을 넘어, 보고서의 ‘사용성’을 결정하는 중요한 역할을 합니다.
가장 흔한 문제 상황을 볼까요? GA4 데이터에는 ‘호스트 이름’(예: myblog.com)과 ‘페이지 경로’(예: /post/123)가 따로 분리되어 있습니다.
보고서 표에 ‘페이지 경로’만 띄워놓으면, /post/123이 대체 무슨 글인지 알 수가 없습니다. 클릭해서 들어가 볼 수도 없죠. 이때 CONCAT으로 두 데이터를 합쳐 ‘클릭 가능한 전체 URL’을 만들어야 합니다.
CONCAT 사용의 함정과 해결책
여기서도 초보자의 실수가 나옵니다.
- 초보자의 실수:
- ‘계산된 필드’ > 수식: CONCAT(호스트 이름, 페이지 경로)
- 결과: myblog.com/post/123
- 문제점: https://가 빠져서 링크로 작동하지 않습니다. 사소해 보이지만, 보고서를 받는 사람은 이 링크를 복사해서 주소창에 붙여넣고 https://를 수동으로 쳐야 합니다. 최악의 사용자 경험입니다.
- 전문가의 해결책:
- ‘계산된 필드’를 엽니다. (이번에도 ‘데이터 소스’ 수준에서 만드는 것을 추천합니다.)
- 필드 이름은 클릭 가능 URL이라고 짓습니다.
- 수식 입력창에 CONCAT("https://", 호스트 이름, 페이지 경로) 라고 입력합니다.
- 수식 해설: CONCAT 함수는 텍스트와 텍스트를 그냥 이어 붙입니다. 이때, 내가 직접 입력하고 싶은 텍스트(‘https://’)는 반드시 큰따옴표(" ")로 감싸줘야 합니다.
5. (전문가 팁) CONCAT의 완성은 '유형' 변경입니다
제가 초보 시절에 CONCAT 수식만 만들고 끝냈던 실수가 있습니다. 텍스트는 합쳐졌지만, 여전히 그냥 ‘검은색 글자’일 뿐이었죠.
이 보고서의 품격을 높이는 마지막 1% 작업이 남아있습니다.
- ‘데이터 소스 편집’ 화면으로 돌아갑니다.
- 방금 만든 클릭 가능 URL 필드를 찾습니다.
- 이 필드의 ‘유형’이 기본적으로 ‘텍스트(ABC)’로 되어 있을 겁니다.
- 이 유형을 클릭해서, ‘URL’로 변경해주세요.
- 이제 끝났습니다. 이 클릭 가능 URL 필드를 보고서의 표에 측정기준으로 추가해 보세요.
- https://myblog.com/post/123 이라는 텍스트가, 클릭하면 새 창으로 열리는 ‘파란색 하이퍼링크’로 바뀌어 있는 것을 볼 수 있습니다.
제가 경험하기로, 보고서를 받는 클라이언트나 상사들은 이 ‘클릭 가능한 링크’ 기능 하나만으로도 보고서의 만족도가 엄청나게 올라갔습니다. 사소한 디테일이 전문성을 결정합니다.
텍스트 함수는 단순한 도구가 아닙니다. 엑셀에서 하던 수작업을 없애고, 보고서의 신뢰도와 사용성을 높이는 ‘자동화’의 첫걸음입니다. 원본 데이터를 고치러 가는 습관을 버리고, 지금 바로 계산된 필드에서 LOWER와 CONCAT을 사용해 보세요 :)



댓글
댓글 쓰기