BigQuery 샌드박스란!?

안녕하세요. 인트렌치 컨설팅 조유하 입니다.

이 전에 GA4(Google Anlaytics 4)와 Bigquery 연동의 중요성에 대해 이야기해 보았는데요.

오늘은 이름만 들어도 어려운 BigQuery.
GA4 데이터 정밀 분석 시작의 진입 장벽을 낮춰 줄 Bigquery 샌드박스에 대해 알아보겠습니다.

샌드박스란?

마치 어린이가 안전하게 뛰어놀 수 있도록 만들어진 모래 놀이터(Sand Box)처럼

BigQuery 샌드박스는 실제 BigQuery 환경과 거의 동일하지만 무료로 안전하게 BigQuery를 체험하고 데이터 분석을 연습할 수 있도록 Google에서 제공하는 특별한 환경입니다. 

실제 데이터 손상이나 과금 걱정 없이 다양한 기능을 사용해 볼 수 있는, 코딩 연습을 할 때 쓰는 ‘가상 환경’과 비슷한 개념이라고 생각하면 됩니다.

샌드박스, 왜 써야 할까?

  ✅ 무료: 구글 계정만 있다면 누구나 사용 가능 (단, 몇 가지 제약 있음)

  ✅ 안전 보장: 실제 데이터 손상 걱정 없이 맘껏 쿼리를 실행, 데이터 분석 스킬 업그레이드에만 집중

  ✅ 실전과 동일: 실제 BigQuery 환경과 거의 똑같습니다. 쿼리 작성, 테이블 생성 등 다양한 기능을 미리 경험

  ✅ GA4 연동 데이터 활용: 힘들게 샘플 데이터를 찾아 헤맬 필요 없이, 이미 연동해둔 GA4 데이터를 활용하여 연습 가능

샌드박스 시작하기

1️⃣ 구글 클라우드 콘솔 접속: console.cloud.google.com 접속 후 BigQuery 검색

* 처음 접속 시 구글 클라우드 플랫폼(GCP) 가입이 필요할 수 있습니다.

2️⃣ 프로젝트 생성 (또는 선택): 기존 프로젝트를 사용하거나, 새 프로젝트를 만들고 BigQuery API 활성화

* 프로젝트 이름은 자유롭게 설정

3️⃣ 샌드박스 활성화 확인: BigQuery 사용을 시작하면 자동으로 샌드박스 활성화 (무료 등급 확인)

* BigQuery UI 상단에 ‘무료 등급’ 배지가 있는지 확인. 배지가 없다면 유료 계정으로 전환될 수 있으니 주의

4️⃣ GA4 연동 데이터 활용 & 쿼리 작성:

* 샌드박스 버전은 데이터 최대 60일 저장

GA4와 BigQuery가 연동된 프로젝트 선택: GA4 데이터가 저장된 BigQuery 프로젝트를 선택합니다.

GA4 데이터 테이블 탐색: BigQuery UI에서 GA4 데이터가 저장된 테이블 (보통 events_YYYYMMDD 형태)을 찾아봅니다.

쿼리 작성: 이제 GA4 데이터를 활용한 쿼리를 작성할 수 있습니다.

     → 예시: “특정 페이지의 페이지뷰 수”, “특정 이벤트 발생 횟수”, “사용자별 세션 수” 등을 쿼리로 확인해 보세요.

5️⃣ 샘플 데이터 탐색 & 쿼리 작성:

* GA4와 연동할 데이터가 없더라도 샘플 데이터 활용 가능

BigQuery 공개 데이터셋 활용: BigQuery가 제공하는 다양한 공개 데이터셋을 탐색하고, 원하는 데이터를 선택하여 쿼리를 작성해보세요.

     → 예시: bigquery-public-data.covid19_jhu_csse.summary (코로나19 데이터)

GA4 샘플 데이터 활용: GA4 샘플 데이터를 BigQuery로 내보내서 샌드박스에서 쿼리 연습! (샘플 데이터 내보내기 방법은 검색을 통해 쉽게 찾을 수 있습니다.)

     → 예시: GA4 데모 계정 데이터를 BigQuery로 내보내기

6️⃣ 쿼리 실행 & 결과 확인: 작성한 SQL 쿼리를 실행하고 결과를 확인

* SQL 쿼리 작성에 익숙하지 않다면, 온라인 SQL 튜토리얼이나 BigQuery 관련 자료를 참고

샌드박스 활용 팁

 ✅ 공식 문서 & 커뮤니티 활용: BigQuery 공식 문서 및 Stack Overflow, Google 그룹스 등 BigQuery 관련 커뮤니티를 활용하여 문제 해결 및 정보 공유

  ✅ 작은 쿼리부터 시작: 처음부터 복잡한 쿼리를 작성하기보다는, 간단한 쿼리부터 시작하여 점차 난이도를 높여가는 것이 좋습니다.

  ✅ 쿼리 비용 예측: 쿼리를 실행하기 전에 쿼리 비용을 예측하는 기능을 활용하여 불필요한 비용 발생 방지

샌드박스 사용 시 유의사항 

  ✅ 저장 용량 제한: 매월 10GB 무료, 용량 초과 시 데이터 삭제 또는 유료 업그레이드 필요

  ✅ 쿼리 처리 용량 제한: 매월 쿼리 처리 용량 1TB 제공. (쿼리 처리 용량에도 제한이 있으므로 쿼리 조회시 기간과 필요한 데이터만 활용하는것이 좋습니다.)

  ✅ 일부 기능 제한: 일부 고급 기능 (예: 스트리밍 데이터 삽입, 외부 테이블)은 샌드박스에서 사용 불가

  ✅ 만료일: 모든 BigQuery 데이터 세트에는 기본 테이블 만료 시간이 있으며 모든 테이블, 뷰, 파티션은 60일 후에 자동으로 만료됩니다.

마무리

앞서 이야기 한것 처럼 BigQuery 샌드박스는 데이터 정밀 분석의 문턱을 낮춰주는 고마운 존재입니다.

물론 SQL이라는 기본 사전 지식이 필요하다는 전제가 있습니다.
하지만 요즘은 AI를 통해 쿼리 또한 생성이 가능하기 때문에 처음 접하더라도 
분석하고자 하는 데이터에 대해 어느정도 이해를 하고 있기만 하면 활용할 수 있는 방법이 많이 생겼습니다.

다음은 기회가 된다면 AI를 통해 빅쿼리에서 활용하기 위한 쿼리를 생성하는 방법에 대해 다뤄보겠습니다.

Entrench Consulting
위로 스크롤