구글 빅 쿼리 | 데이터 웨어하우스 끝판왕 Bigquery 어디까지 알고 계신가요 모든 답변

당신은 주제를 찾고 있습니까 “구글 빅 쿼리 – 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 Google Cloud APAC 이(가) 작성한 기사에는 조회수 1,145회 및 좋아요 18개 개의 좋아요가 있습니다.

구글 빅 쿼리 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요 – 구글 빅 쿼리 주제에 대한 세부정보를 참조하세요

Cloud OnAir 디지털 컨퍼런스 – Data Warehouse Modernization
Google의 20년 이상 역사에서 가장 훌륭한 제품 중 하나로 손꼽히는 \”\”BigQuery\”\”에 대하여 알아 보는 시간입니다. BigQuery의 기술적인 아키텍쳐와 BigQuery가 기존의 EDW(Enterprise Data Warehouse)와 어떻게 다른지, 그리고 주요 고객사례를 중심으로 알아보겠습니다. (실제 진행된 날짜: 2020년 8월 13일)
Google Cloud Korea의 더 많은 디지털 컨퍼런스를 한 눈에 확인해보세요. https://cloudonair.withgoogle.com/korea

구글 빅 쿼리 주제에 대한 자세한 내용은 여기를 참조하세요.

구글 빅쿼리(Big Query) 시작하기 – 브런치

구글 빅쿼리란? 빅쿼리는 확장성이 뛰어나고 가격 대비 성능이 좋은 기업용 서버리스 데이터 웨어하우스 입니다. 객체 스토리지(메타데이터와 고유의 …

+ 더 읽기

Source: brunch.co.kr

Date Published: 10/8/2021

View: 1640

구글 빅데이타 플랫폼 빅쿼리(BIGQUERY)에 소개 – 조대협

빅쿼리는 페타 바이트급의 데이타 저장 및 분석용 클라우드 서비스이다. 요즘은 페타바이트급의 data warehouse로 부르는데, 쉽게 말해서 페타바이트급의 …

+ 여기에 자세히 보기

Source: bcho.tistory.com

Date Published: 6/12/2021

View: 3749

갈아먹는 BigQuery [1] 빅쿼리 소개

구글 BigQuery는 이름에서 알 수 있듯이 엄청나게 큰 데이터에 대한 SQL 쿼리를 빠르게 수행해주는 google cloud platform의 서비스 중 하나입니다. 무려 …

+ 여기에 보기

Source: yeomko.tistory.com

Date Published: 1/30/2021

View: 5839

구글 빅쿼리(BigQuery) 시작하기 및 datagrip 연동 안내

구글 빅쿼리는 머신러닝(ML)에 특화된 Cloud Database 입니다. 비교적 저렴한 비용으로 많은 데이터에서 아주 빠르고 간단하게 Ansi SQL을 이용하여 …

+ 여기를 클릭

Source: stricky.tistory.com

Date Published: 1/2/2022

View: 8558

Sign in – Google Cloud Platform

Google Cloud Platform lets you build, deploy, and scale applications, websites, and services on the same infrastructure as Google.

+ 여기에 더 보기

Source: console.cloud.google.com

Date Published: 3/4/2021

View: 2741

데이터엔지니어링을 위한 구글 빅쿼리 이용 사례 – 오픈애즈

데이터엔지니어링을 위한 구글 빅쿼리 이용 사례. 데이터 엔지니어링이란 사용자의 데이터(주문, 매출, 회원가입 등)를 수집하여 원하는 형태의 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.openads.co.kr

Date Published: 7/20/2021

View: 1261

BigQuery와 Google Sheets 연결해 쓰니 이렇게 좋을 수가…

구글 빅쿼리는 간단히 말해 클라우드 상에서 운영하는 데이터웨어하우스라고 보면 됩니다. 대량의 데이터 세트를 올려놓고 분석을 하기 위해 쓰죠. 보통 사용자는 BI 도구 …

+ 여기를 클릭

Source: gc.hosting.kr

Date Published: 10/16/2021

View: 2896

BigQuery – Google Cloud Platform Console 고객센터

Google Cloud Platform Console의 왼쪽 메뉴에 있는 빅데이터에서 BigQuery를 찾아 … 공개 데이터세트를 쿼리하고 테이블에 데이터를 로드하는 방법을 알아보세요.

+ 자세한 내용은 여기를 클릭하십시오

Source: support.google.com

Date Published: 10/30/2021

View: 7522

주제와 관련된 이미지 구글 빅 쿼리

주제와 관련된 더 많은 사진을 참조하십시오 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요
데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요

주제에 대한 기사 평가 구글 빅 쿼리

  • Author: Google Cloud APAC
  • Views: 조회수 1,145회
  • Likes: 좋아요 18개
  • Date Published: 2021. 6. 23.
  • Video Url link: https://www.youtube.com/watch?v=LhksTFvVriU

구글 빅쿼리(Big Query) 시작하기

구글 빅쿼리란?

빅쿼리는 확장성이 뛰어나고 가격 대비 성능이 좋은 기업용 서버리스 데이터 웨어하우스 입니다.

객체 스토리지(메타데이터와 고유의 식별자를 통해 객체로 저장), 스프레드시트의 데이터, 관리형 열 형식 스토리지(분석 앱에서 데이터 열을 빠르게 검색하는데 최적화) 를 통해 논리적 데이터 웨어하우스를 생성하여 모든 배치와 연속적으로 생성되는 스트리밍 데이터를 분석합니다.

빅쿼리를 사용해야 하는 이유와 장점

빅쿼리 공식 페이지에서 장점이나 기능, 그리고 사용 사례 등 궁금해할 수 있는 전반적인 내용을 확인하실 수 있습니다.

소개되어있는 장점 중 두드러지는 점은 일단 빅쿼리를 사용하면 초기 셋팅이나 확인하고자 하는 정보를 처리하는 데에 소요 시간이 짧아서 구축/활용의 사이클을 앞당긴다는 점 입니다. 특히 페타바이트 급(페타바이트라고 하면 2012년 기준으로 유투브에서 한달동안 저장하는 데이터)의 데이터를 SQL 쿼리를 통해 확인할 수 있으며, SQL 쿼리를 실행하여 7 테라 바이트(테이블에서 천억개의 행)를 30초 이내에 처리할 수 있다고 합니다. 이에 스트리밍 데이터를 수집하고 통계 정보로 시각화하는 것이 용이 합니다.

이러한 특징은 우리가 가진 데이터 그리고 앞으로 처리해야 할 실시간 데이터를 적재하고 분석하는 데에 있어 가장 큰 장점입니다.

빅쿼리를 사용해야하는 이유와 어떻게 활용해야 할지에 대해 고민해 보았는데요, 이제 셋팅해보겠습니다.

▶ Google Cloud Platform(이하 GCP)에서 BigQuery 사용하기

1. Google Cloud 접속하여 구글 계정으로 로그인합니다.

2. 새 계정으로 로그인하는 경우 ‘새 계정 시작’ 동의를 해주세요. 이는 GCP에 처음 접근했을 때 숙지해야할 점에 대해 설명합니다.

3. 로그인 하여 첫 페이지 [무료로 시작하기] 클릭. 새로 시작하는 계정이 아니라면 [무료로 시작하기] 버튼이 없고, [콘솔] 로 접근 가능합니다.

4. GCP 이용 전 필요한 정보 및 결제 수단을 등록합니다.

결제 수단을 등록하여도 무료크레딧 제공으로 12개월 동안은 과금되지 않습니다. 결제수단 정보를 입력하는 것은 자동가입 방지를 위함이고 12개월이 지나서 유료 계정으로 직접 변경하지 않으면 추가 결제되지 않는다고 합니다.

입력 후 [무료 평가판 시작하기] 를 누릅니다.

5. 신청 완료.

6. [My First Project]를 눌러서 프로젝트를 확인합니다. 기본 생성된 프로젝트를 선택하거나 신규로 생성할 수 있습니다.

1) 기본 생성된 프로젝트 선택하면 그에 대한 대시보드로 이동합니다.

2) 새 프로젝트 선택하면 프로젝트를 선택할 수 있는 화면으로 이동합니다. 프로젝트 이름과 프로젝트가 위치할 폴더를 선택할 수 있습니다. 프로젝트 ID도 함께 생성되는데 이는 수정이 불가합니다.

7. BigQuery 를사용하기 위하여 좌측 메뉴를 확인합니다. BigQuery 는 빅데이터 섹션에 있습니다. [BigQuery]에 마우스를 오버하면 상단에 고정할 수 있는 핀 기능이 나타납니다. 이를 클릭하면 스크롤을 내리지 않고도 상단에서 바로 확인이 가능합니다.

8. BigQuery 를 클릭합니다. 처음을 환영하는 안내문을 확인할 수 있습니다.

9. BigQuery 대시보드에서 리소스를 확인하거나 신규 데이터셋을 생성&조회할 수 있습니다.

데이터셋은 프로젝트 하위에 속합니다. 데이터를 빅쿼리에 로드하는 것은 최소한 한 개 이상의 데이터셋을 만든 후에 가능합니다.

회원가입부터 빅쿼리 데이터셋 생성까지 GCP 초기 설정에 대하여 알아보았습니다.

절차에 따라 진행해보시고 궁금한 점 있으시면 댓글 달아주세요 �

구글 빅데이타 플랫폼 빅쿼리(BIGQUERY)에 소개

구글 빅데이타 플랫폼 빅쿼리 소개

조대협 (http://bcho.tistory.com)

구글의 클라우드 관련 기술중 무엇이 좋은게 있을까 살펴 보면서 기술을 하나하나씩 보다 보니, 구글 클라우드의 특징은 여러가지가 있겠지만, 데이타 회사 답게 빅데이타 및 머신 러닝 플랫폼이 상당히 강하다.

그중에서 빅데이타 플랫폼의 중심에 BIG QUERY라는 빅데이타 플랫폼이 있어서, 몇 회에 걸쳐서 빅쿼리에 대해서 소개해보고자 한다.

구글 빅데이타 분석의 역사

구글은 빅데이타를 다루면서, 그 근간이 되는 기술들의 논문들을 공개했다. 하둡 파일 시스템의 시초가 되는 GFS나, 하둡의 시초인 MapReduce 논문, 그리고 Hive를 통해 오픈소스화가 된 Big Table등의 논문들이 있다. 구글의 빅쿼리는 Dremel 이라는 논문을 근간으로 한다.

빅쿼리랑 무엇인가?

빅쿼리는 페타 바이트급의 데이타 저장 및 분석용 클라우드 서비스이다.

요즘은 페타바이트급의 data warehouse로 부르는데, 쉽게 말해서 페타바이트급의 데이타를 저장해놓고, 쿼리를 통해서 조회나 통계 작업등을 할 수 있는 DB(라고 보기에는 약간 애매하지만)이다.

빅쿼리의 특징

대략적인 특징을 살펴보면 다음과 같다.

클라우드 서비스로 설치/운영이 필요 없음 (NoOps)

어디에 설치해서 사용하는 서비스가 아니라 구글 클라우드 서비스를 통해서 제공되는 빅데이타 저장 분석 서비스이다. 클릭 몇번으로 서비스 사용이 가능하고, 별도의 설정이나 운영이 필요 없다.

SQL 언어 사용

기존의 RDBMS에서 사용되는 SQL언어를 그대로 사용하기 때문에, 사용이 매우 쉽다.

클라우드 스케일의 인프라를 통한 대용량 지원과 빠른 성능

빅쿼리의 성능이나 스케일을 보려면 다음 예제를 보는게 좋다.

https://cloud.google.com/blog/big-data/2016/01/anatomy-of-a-bigquery-query

위키피디아에서 100 billion record (1000억개)의 레코드를 스캐닝해서 regular expression으로 “G.*o.*o.*g”) 문자열을 찾아내서 그 문서의 뷰수를 카운트 하는 예제이다.

대략 4TB 용량의 데이타가 핸들링 되고, 약 30초가 소요된다.

30초 동안, 약 3,300개의 CPU와, 330개의 하드 디스크, 330 Gigabit의 네트웍이 사용된다.

(자료 : https://cloud.google.com/blog/big-data/2016/01/bigquery-under-the-hood)

이 쿼리를 수행하는데 소요되는 비용은 딱 $20가 소요된다.

일반적인 인프라에서 빅데이타 연산을 하는데, 3300개의 CPU를 동시에 사용하기란 쉽지 않은 일이고, 이런 대용량 연산을 20$에 할 수 있는 것은 대용량 인프라를 공유하는 클라우드 서비스이기 때문에 가능하다.

데이타 복제를 통한 안정성

데이타는 3개의 복제본이 서로 다른 3개의 데이타 센터에 분산되어 저장되기 때문에 데이타에 대한 유실 위험이 적다.

배치와 스트리밍 모두 지원

한꺼번에 데이타를 로딩하는 배치 이외에도 REST API등을 통해서 실시간으로 데이타를 입력할 수 있는 스트리밍 기능을 제공하며, 스트리밍시에는 초당 100,000개의 행(row)의 데이타를 입력할 수 있다.

비용 정책

비용 정책 역시 클라우드 서비스 답게, DB 인스턴스와 같은 과금 방식이 아니라서 큰 데이타를 핸들링 하기 위해서 큰 인스턴스를 쓰고 사용하지 않는 동안에도 과금이 되는 정책이 아니라,

딱 저장되는 데이타 사이즈와, 쿼리시에 발생하는 트렌젝션 비용만큼만 과금이 된다. 데이타 저장 요금은 GB당 0.02$이고, 90일이 지나서 사용하지 않는 데이타는 자동으로 0.01$로 가격이 떨어진다.

클라우드 서비스에서 가격이 싸다는 일반적인 오브젝트 스토리지 (Google Cloud Storage : GB당 0.026$)보다 싸다. 트렌젝션 비용은 쿼리 수행시 스캔되는 데이타를 기준으로 TB당 $5 이다. (월 1TB는 무료)

(나중에 자세하게 설명하겠지만, 스캔되는 컬럼당 비용이 나오기 때문에 사실상 비용을 계산해보면 그리 높지 않다)

가격 정책 : https://cloud.google.com/bigquery/pricing

빅쿼리가 기존의 빅데이타 플랫폼과 다른점은?

그렇다면 빅쿼리가 기존의 빅데이타 분석 플랫폼인 Hadoop, Spark등과의 차이가 무엇일까? 앞의 장점을 기반으로 그 차이점을 정리하자면 크게 다음과 같은 3가지를 들 수 있다.

쉽다.

보통 Hadoop이나 Spark등을 사용하게 되면, Map&Reduce(이하 MR) 로직을 사용하거나 SparkSQL을 사용하더라도 일정 수준 이상의 전문성이 필요하다. 또한 MR 로직의 경우 전문성이 있는 개발자가 분석 로직을 개발해야 하기 때문에 시간이 상대적으로 많이 소요되지만 빅쿼리는 로그인 후 SQL만 수행하면 되기 때문에, 상대적으로 빅데이타 분석이 쉽다.

운영이 필요 없다

Hadoop이나 Spark과 같은 빅데이타 솔루션의 경우에는 인스톨과 설정 그리고 클러스터의 유지 보수가 보통 일이 아니다. 그래서 별도의 운영 조직이 필요하고 여기에 많은 리소스가 소요되지만, 빅쿼리는 클라우드 서비스 이기 때문에, 별도의 운영등에 신경을 쓸 필요가 없이 개발과 분석에만 집중하면 된다.

인프라에 대한 투자없이 막강한 컴퓨팅 자원을 활용

앞의 예에서 본것과 같이, 빅쿼리를 이용하면 수천개의 CPU와 수백/수천개의 컴퓨팅 자원을 사용할 수 있다. 물론 기존 빅데이타 플랫폼도 클라우드 환경에 올리면 수천개의 CPU를 사용하는 것이 가능은 하지만, 그 설정 작업과 비용적인 측면에서 차이가 크다.

빅쿼리 맛보기

그러면 직접 빅쿼리를 사용해보자. 빅쿼리 버전 HelloWorld라고 생각하면 된다.

가입 하기

http://cloud.google.com 으로 들어가서 구글 클라우드 서비스에 가입을 한후에, 로그인을 해서 아래 그림 처럼 결재 메뉴에서 빌링 정보를 입력한다 (신용 카드 정보 입력)

계정이 생성되면 자동으로 $300 의 무료 사용권이 생성되고, 이 금액은 60일동안 사용할 수 있다. (60일이 지나면 자동으로 소멸된다. ).

신용 카드 정보를 넣었더라도, 사용자가 직접 과금이 되는 플랜으로 업그레이드를 하지 않는 이상 과금이 되지 않으니 이 부분은 걱정하지 말기 바란다.

프로젝트 생성

구글 클라우드는 VM이나 각종 자원들을 프로젝트라는 개념으로 묶어서 사용한다. 처음 계정을 생성했으면 프로젝트가 없기 때문에 프로젝트를 생성하자.

아래 그림과 같이 상단 우측 메뉴에 프로젝트 생성 메뉴가 있다.

프로젝트 생성을 선택한 후 아래와 같이 프로젝트 이름을 입력하면 프로젝트가 생성된다.

빅쿼리 콘솔로 이동하기

프로젝트가 생성되었으면 메뉴에서 아래 그림과 같이 BigQuery 메뉴를 선택하게 되면 빅쿼리 웹 콘솔로 이동이 된다.

빅쿼리 메뉴로 들어가면 다음과 같은 작업 창이 나온다.

좌측은 프로젝트와 프로젝트에 속한 데이타셋과 테이블 리스트가 나온다.

나중에 데이타 모델을 다시 설명하겠지만, 데이타 셋 (dataset)은 RDBMS의 db와 같은 개념으로 테이블의 집합이라고 보면 되고, 그 안에 개별 테이블들이 들어가 있다.

우측 상단 쿼리 입력창에는 SQL을 입력해서 쿼리를 실행하고, 우측 아래에는 쿼리 결과를 볼 수 있다.

쿼리 실행

그러면 실제로 간단한 쿼리를 수행해보자

빅쿼리에서는 테스트를 위해서 몇가지 데이타 셋을 공개로 해놓았는데, bigquery-samples라는 데이타 셋에서 1000억개의 레코드를 가지고 있는 wikipedia_benchmark.Wiki100B 테이블에서, 위키 페이지 제목이 “Seoul”또는 “seoul”인 페이지의 제목과 뷰수를 쿼리를 해본다.

다음과 같이 쿼리를 입력하고

select title,sum(views) as views from [bigquery-samples:wikipedia_benchmark.Wiki100B] where regexp_match(title,'[Ss]eoul’) group by title order by views desc;

쿼리 입력창 하단에 체크 마크를 누르면 다음과 같은 화면이 출력된다.

쿼리를 수행하기 전에, 쿼리가 제대로 되었는지 확인을 해주고, 위와 같이

“Valid: This query will process 3.64 TB when run.”

3.64 TB를 스캐닝 할것임을 알려준다. (이를 통해서 쿼리 수행 비용을 예측해볼 수 있다.)

“Run Query” 버튼을 눌러서 쿼리를 수행하면 다음과 같은 결과를 얻을 수 있다.

RUN QUERY 버튼 가장 우측에 총 3.64TB를 처리했고, 총 수행 시간은 38.9초가 걸렸음을 확인할 수 있다.

그리고, 아래 쿼리 결과가 나온다.

Seoul 로 된 페이지가 11258720회 조회되었고, Seoul_National_University가 다음으로 894040회, FC_Seoul이 802570회 조회 된것을 확인할 수 있다.

지금까지 간략하게나마 빅쿼리에 대한 소개와 주요 특징 그리고 간단한 사용법을 소개했다.

다음 글에서는 빅쿼리의 내부 아키텍쳐에 대해서 설명하도록 한다.

갈아먹는 BigQuery [1] 빅쿼리 소개

들어가며

구글 BigQuery는 이름에서 알 수 있듯이 엄청나게 큰 데이터에 대한 SQL 쿼리를 빠르게 수행해주는 google cloud platform의 서비스 중 하나입니다. 무려 페타바이트에 달하는 데이터도 빠르게 분석할 수 있다고 합니다. 자체 클러스터를 구성하고 운영하는 수고로움은 덜고, 데이터 분석에만 집중할 수 있는 툴로 많은 기업들에서 데이터 웨어하우스로 도입하고 있습니다. 그러면 빅 쿼리가 어떻게 생겼는지 살펴볼까요?

빅 쿼리는 다들 한번씩 사용해보셨을 MySQL과 같은 RDBMS의 웹 어드민처럼 생겼습니다. 여기서 데이터 셋을 불러오고, 쿼리를 입력할 수 있습니다. 위의 예시는 100억개의 위키피디아 문서에서 각 언어 별로 Google이라는 단어가 제목에 등장한 문서의 수를 세어주는 쿼리를 입력한 것입니다.[2] 쿼리 실행 세부 정보를 살펴보면 아래와 같습니다.

빅 쿼리는 해당 SQL문을 수행하는데 415.8GB에 달하는 데이터를 처리하여 16.2초 만에 주어진 SQL문을 수행하였습니다. 슬롯이라는 것은 빅 쿼리가 분산 처리를 하는 단위인데 이에 관련해서는 다음 포스팅에서 자세히 소개하도록 하겠습니다. 여기서는 분산 처리를 하지 않고 단일 머신으로 해당 쿼리를 수행했을 경우 소요되는 시간이다 정도로 이해하고 넘어가겠습니다.

정리하자면 빅 쿼리는 우리에게 친숙한 SQL문 만으로 분산 저장되어 있는 방대한 데이터를 순식간에 분석해주는 마법같은 도구입니다. 그렇다면 도대체 빅 쿼리는 무엇이고, 어떻게 탄생하였으며, 이토록 빠른 성능을 낼 수 있는지 하나씩 뜯어보겠습니다.

BigQuery 탄생 배경

BigQuery는 구글 내부에서 방대한 양의 데이터를 SQL문을 통해서 분석하기 위해 개발한 Dremel이라는 프로젝트의 public implementation입니다.[1] Dremel 이전에는 그 당시에 최신 유행이었던 하둡 기반의 클러스터를 구축하고, Map Reduce 방식을 통해서 데이터 웨어하우스를 구축하였다고 합니다. 문제는 간단한 분석 작업 하나도 맵 리듀스 방식으로는 하루가 넘게 걸리는 등 속도가 너무 느리다는데 있었습니다.

이를 극복하고자 시작한 것이 Dremel 프로젝트입니다. Dremel은 structured 데이터를 분산 저장하고 SQL문을 통해 빠르게 데이터를 분석하는데 특화되어 있습니다. 이를 통해서 데이터 분석가들이 다양한 쿼리문을 통해서 데이터에서 인사이트를 뽑아낼 수 있도록 도와주는 도구입니다.

빅 쿼리는 이 Dremel 프로젝트를 기반으로 구글 외부의 사용자들도 쓸 수 있도록 서버리스 클라우드 서비스로 만들어 공개한 것이 빅 쿼리입니다. 빅 쿼리가 빠르다 못해 미친 성능을 보여주는 것은 다음 두 가지 특징 덕분입니다. 하나는 Columnar Storage, 다른 하나는 Tree 기반의 distribution입니다.

Columnar Storage

일반적인 RDBMS는 레코드 단위로 데이터를 저장합니다. 하지만 Dremal은 컬럼 단위로 데이터를 뜯어내어 저장합니다. Dremal은 애당초 방대한 양의 데이터를 분석하기 위해 설계되었습니다. 이런 스케일의 데이터를 컬럼 기반으로 저장할 경우 다음과 같은 장점이 있습니다.

1. 트래픽 최소화

예를 들어서 “SELECT top(title) from foo”와 같은 쿼리가 들어왔다고 하면 컬럼 기반 저장 방식에서는 해당하는 컬럼만 조회하면 됩니다. 이는 데이터의 양이 방대해 질 수록 효과가 극대화됩니다. 그러므로 빅 쿼리에 앞으로 쿼리를 입력할 때에는 “SELECT * “와 같은 문법은 지양하는 것이 바람직해 보입니다.

2. Higher Compression Ratio

컬럼 단위로 데이터를 저장한 다는 것은 곧 같은 데이터 타입의 데이터들이 몰려서 저장되는 것을 의미합니다. 그 결과 압축하기에 더 용이하다고 합니다. 일반적인 RDBMS는 데이터를 1:3 비율로 압축하지만 컬럼 기반 저장은 1:10 비율로 압축이 가능하다고 합니다. 많이 압축한 만큼 쿼리 수행 성능도 향상된다고 합니다.

이러한 컬럼 기반 저장은 사실 기존 RDBMS에서도 구현이 되어있으며, Cassandra와 같이 column based nosql 솔루션들도 이미 존재했습니다. 하지만 Dremel은 이러한 컬럼 기반 저장에 대규모 분산 처리를 성공적으로 결합하여 성능을 극대화 시켰습니다.

Tree Architecture Distribution

구글은 수천대의 머신에 쿼리 연산을 분산시키기 위해서 트리 구조를 활용합니다. 루트 서버는 클라이언트의 SQL 쿼리문을 분석하여 분산 머신에서 동작하는 수많은 작은 단위의 쿼리문들을 만들고 이를 intermediate servers에 전달합니다. 이 서버들은 다시 실제 연산을 수행하는 리프 노드들에게 쿼리를 전달하고, 쿼리의 결과 값으로 반환되는 값들을 합쳐서 부모 노드에게 전달해줍니다. 좀 더 자세한 내용은 Dremel 논문 리뷰 포스팅에서 다뤄보도록 하겠습니다.

이렇게 구글은 컬럼 베이스 저장 구조와 트리 기반의 분산 처리를 통해서 방대한 양의 데이터를 분석하는 SQL 쿼리문을 순식 간에 수행하는 Dremel을 만들어 냈습니다. 그리고 이를 GCP 상에서 편리하게 사용할 수 있도록 빅 쿼리를 만들어 서버리스 솔루션으로 제공합니다. GCP에는 이 빅쿼리와 함께 빅 쿼리에 데이터를 적재할 수 있는 Cloud Dataflow, Cloud Dataproc, Cloud Storage 등의 많은 빅 데이터 에코 시스템이 구축되어 있습니다. 이러한 솔루션들을 엮어서 멋진 데이터 파이프라인을 구축하는 방법도 차례로 다뤄보도록 하겠습니다. 🙂

BigQuery의 한계점

지금까지 빅 쿼리의 마법같은 기능들을 살펴보았습니다. 하지만 장점이 있으면 단점도 있겠죠? 바로 빅 쿼리는 분석, OLAP에 특화되어 있기 기 때문에 OLTP에는 부적합합니다. 적은 양의 데이터를 계속해서 입력하고, 업데이트 해야하는 작업에서는 오히려 성능이 떨어지는 모습을 보입니다. 다음은 빈 테이블에 문자열을 하나 입력하고 업데이트하는 간단한 쿼리를 빅 쿼리에서 수행한 결과입니다.

…띠용? 수십억개의 문서도 16초만에 분석하던 녀석이 작은 레코드 하나 인서트하는데 0.9초나 걸렸습니다. 이처럼 소규모 데이터를 빈번하게 입력하거나 업데이트 하는 작업에는 빅 쿼리는 적합하지 못합니다. 그러므로 빅 쿼리가 힙 해보인다고 기존에 잘 쓰고 있던 RDBMS를 빅 쿼리로 옮겨버린다면 낭패를 보겠죠? 어디까지나 대용량 데이터를 분석하는 용도로 사용할 때 진가를 발휘할 것 같습니다.

(덧붙이자면 Dremel은 update문을 지원 안한다고 논문에 나와있었습니다. 그래서 당연히 빅 쿼리도 지원을 안할 줄 알았는데 insert나 update문이 동작하긴 하네요 ㅎㅎ)

마치며

지금까지 소개해드린 SQL 엔진 기능 이외에도 빅 쿼리는 놀라운 기능들을 담고 있습니다. (구글신 당신의 끝은 어디인가…!) 그 중에서도 가장 신박했던 것은 SQL문 만으로 간단한 Classification, Regression 모델을 학습시키고 성능 평가를 진행할 수 있는 BigQueryML 기능이었습니다. 아무래도 구글은 머신러닝에 미쳐있나 봅니다 ㅎㅎ

이어지는 포스팅 들에서는 빅 쿼리의 아키텍쳐, 데이터 저장 방식, 분산 처리 원리 등을 다뤄볼 예정입니다.

감사합니다.

Reference

[1] An Inside Look at Google BigQuery, google cloud

[2] https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/data-engineering/demos/bigquery_scale.md

구글 빅쿼리(BigQuery) 시작하기 및 datagrip 연동 안내

구글 빅쿼리(BigQuery) 시작하기 및 datagrip 연동 안내

구글 빅쿼리(BigQuery) 시작하기 및 datagrip 연동 안내

안녕하세요. 구글 빅쿼리(BigQuery)를 첨으로 사용하시는 분들께 구글 빅쿼리 사용법에 대해서 간단하게 안내를 드립니다. 우선 구글 빅쿼리(BigQuery) 가 무엇이고, 왜 사용하는지, 그리고 어떻게 편하게 사용 하는지에 대해서 알아보도록 하겠습니다. 자, 따라오시죠.

구글 빅쿼리는 머신러닝(ML)에 특화된 Cloud Database 입니다. 비교적 저렴한 비용으로 많은 데이터에서 아주 빠르고 간단하게 Ansi SQL을 이용하여 데이터를 추출 해 낼수 있습니다.

OLAP성 데이터베이스로 이용하시면 아주 편합니다. 따로 물리서버나 개인 PC에 DB를 설치할 필요도 없이 언제 어디서든 데이터를 확인하고, 분석 할 수 있습니다.

사용방법은 매우 간단합니다. 우선 구글에 가입을 하시고, 계정이 있으신 분들은 로그인을 합니다. 그리고 아래 링크로 이동하여 아래 버튼을 눌러줍니다.

BigQuery: 클라우드 데이터 웨어하우스 | Google Cloud

구글 빅쿼리 시작하기

그럼 300$의 기본 크레딧이 제공 됩니다. 또한 매월 10GB 스토리지를 사용 할 수 있으며, 1TB 쿼리가 무료로 제공되는 혜택을 받으실 수 있습니다. 그럼 시작해볼까요?

약관 동의

위와 같이 사용약관 동의를 해줍니다.

그리고 계속하기를 눌러주시면 됩니다.

프로젝트 선택

우선, 이 화면에서 프로젝트를 생성 해줘야 합니다. 상단에 있는 프로젝트 선택 버튼을 누르시고, 다음 화면과 같이 새 프로젝트를 선택해서 생성을 해주셔야 합니다.

새 프로젝트

그럼 다음과 같은 화면이 뜹니다.

여기에서 프로젝트 이름 잘 지어주시고 만들기를 눌러주시면 진행이 됩니다.

프로젝트 이름

이렇게 만들기를 누르고 기다리면 다음과 같이 초기화면에서 알림이 뜨는것을 확인 할 수 있습니다.

당연히 프로젝트 선택을 눌러주시면 됩니다.

프로젝트 생성

그리고 다음과 같이 좌측 상단의 삼선버튼을 눌러 스크롤을 좀 내리다 보면 BigQuery가 보이실 겁니다.

선택 하시면 됩니다.

여기서 고정핀으로 고정을 해두시면 다음에 좀 더 편하겠죠?

구글 빅쿼리 진입

이젠 구글빅쿼리 화면이 보이실텐데, 여기서 우선 프로젝트 하위에 데이터세트를 만들어주셔야 합니다. 그리고나서 테이블을 만들던지, 쿼리를 실행하던지 해야 하는거죠.

다음과 같이 탐색기 좌측 삼점버튼을 눌러서 데이터 세트를 만들어 줍니다.

데이터 세트 만들기 데이터 세트 만들기

자, 이러면 다음과 같이 탐색기 섹션에 방금 생성한 데이터 세트가 있는것을 확인 할 수 있습니다.

짜잔!!

데이터 세트 추가

자, 우선 이렇게 구글 클라우드 플랫폼(GCP), 구글빅쿼리 쪽 작업은 데이터 세트를 만드는것 까지 해두고 다음은 datagrip에서 구글빅쿼리를 연동 시키는 방법을 안내해 드릴께요.

datagrip과 같은 외부 툴에서 구글빅쿼리를 연동 하려면 GCP에서 서비스 계정을 생성 해야 합니다.

다음 링크로가서 서비스 계정을 생성 해주세요.

https://console.cloud.google.com/iam-admin/

서비스 계정 만들기 서비스 계정 만들기 서비스 계정 세부정보

전 뭐, 일단 권한은 소유자로 했습니다. 전체 모든 권한을 가지는 걸로 설정을 하고 진행 하겠습니다.

그리고 계속 버튼을 눌러서 진행 하시면 됩니다.

서비스 계정 만들기

완료를 누르고나니 아래와 같이 목록에 서비스 계정이 생성 된것을 확인 할 수 있네요.

잘 생성이 되었습니다.

서비스 계정 목록

자, 이번엔 키를 만들어 줘야 합니다.

다음과 같이 작업 아래에 있는 삼점버튼을 눌러서 키 관리로 들어갑니다.

키 관리 키 추가 키 생성 하기

그러면 이젠 키가 생성이 되고 자동으로 PC에 저장이 될 것 입니다.

여기서 datagrip에는 어떻게 연동을 하느냐 안내를 드릴께요.

먼저, datagrip을 열고 DB추가를 하면 다음과 같이 화면이 나옵니다. 그리고 구글빅쿼리를 선택 하죠. 여기서 Connection type을 Service Account로 설정을 먼저 하세요.

그리고 Host와 Port는 그대로 두고 Project ID와 아까 생성한 서비스 계정과 다운받은 키의 PC내 경로를 써주시면 됩니다. 간단하게 접속이 됩니다.

datagrip 구글빅쿼리 연동

위 화면을 참고 하시면 되겠습니다.

쉽게 시작 하실 수 있을것입니다.

일단 설정 소개는 여기까지 하겠습니다.

실 사용편은 다음편에서 뵈요!

감사합니다.

2021.07.28 – [Data Science] – 구글 빅쿼리(BigQuery) create table 방법 및 주의사항

2021.01.20 – [Database/mariaDB administrator] – datagrip 편의 기능 지원 DBMS 소개 및 사용법 | sTricky

2021.02.17 – [Data Science] – Rain in Australia 캐글 날씨 데이터셋 다운로드 받아 mysql에 넣는 방법

2020.02.10 – [Daily life] – 데이터 엔지니어의 업무분야별 특성, dba 커리어 이야기 feat.데이터 베이스 연봉

by.sTricky

데이터엔지니어링을 위한 구글 빅쿼리 이용 사례

데이터 엔지니어링이란 사용자의 데이터(주문, 매출, 회원가입 등)를 수집하여 원하는 형태의 데이터로 가공하고 사용할 수 있도록 제공하는 서비스입니다.

이번에는 비즈스프링의 웹분석 솔루션이 아닌 GA360을 활용하여 데이터를 추출하고 가공한 데이터 엔지니어링에 대한 사례를 소개하고자 합니다.

현재 GA360을 사용하는 기업, 그리고 수집한 데이터에서 더욱 의미있는 인사이트를 얻고 싶은 분이라면 이번 콘텐츠를 주의깊게 살펴보시길 권장드립니다.

GA360 데이터 구조

• 구글 애널리틱스의 데이터는 히트, 세션, 사용자 세 가지 요소를 포함하는 구조로 되어 있습니다.

• 히트가 가장 작은 단위이며, 히트가 모여 세션을 구성하며, 세션이 모여 하나의 사용자로 구성됩니다.

구글 애널리틱스(GA360) 데이터 구조

GA360 BigQuery

• GA360의 BigQuery와 연동되는 기능을 사용하여 원하는 데이터를 추출합니다.

• 데이터는 하루에 한번 전일자 데이터가 들어옵니다.

GA360에서 추출하는 데이터 항목 예시 (출처: BizSpring)

• 하나의 row에는 한개의 세션으로 구성되어있으며 세션내에 record 형식으로 hits가 구성되어 있습니다.

• hits 레벨에서는 type별로 PAGE, EVENT로 나뉘어 구성됩니다.

• PAGE : 페이지 랜딩별 데이터

• EVENT : 이벤트 발생에 대한 데이터(상품 구매, 회원 가입 등)

• 세션 내 페이지 데이터 정보를 가지고 사용자의 행동을 분석할 수 있습니다.

BigQuery에 적재되는 데이터 예시 (출처: BizSpring)

query 예시

데이터를 활용하는 방식 입니다. bigquery가 제공하는 기능(탐색 함수)을 활용하여 시계열 분석을 진행합니다.

예시1) 사용자 ID별 방문 시간을 이용해 해당 사용자의 페이지 접속 후 다음 방문 시간을 구하기

[예시 쿼리]

사용자ID별 다음 방문 시간 Query 예시 (출처: BizSpring)

• LEAD(visit_time) OVER (PARTITION BY fullVisitorId ORDER BY visit_time ASC)

LEAD 함수를 사용하여 fullVisitorId(사용자 id)를 파티션화 하여 사용자의 다음 방문 시간을 추출합니다.

변수값 내용 fullVisitorId 사용자 ID visit_time 방문 시간 next_visittime 다음 방문 시간

[결과]

사용자ID별 다음 방문 시간 Query 결과 (출처: BizSpring)

예시2) 사용자의 체류 시간 구하기

예시 1 에서 구한 visit_time과 next_visittime간의 차이로 체류시간을 추출합니다.

[예시 쿼리]

사용자ID별 페이지 체류시간 Query 예시 (출처: BizSpring)

[결과]

• duration : 체류 시간

사용자ID별 페이지 체류시간 Query 결과 (출처: BizSpring)

예시3) 사용자별 주문 총금액과 주문 건수 구하기

• hits레벨의 EVENT가 발생될 때 별도 customDimension을 활용해 revenue 값을 추출

• 세션내 주문당 주문 건수 1로 정의

• 사용자 ID별 총 주문금액과 총 주문건수 추출

[예시 쿼리] – 테이블은 GA의 테이블

사용자ID별 총주문금액 및 총주문건수 추출 Query 예시 (출처: BizSpring)

변수값 내용 fullVisitorId 사용자 ID revenue 총 주문금액 order_counts 총 주문수

[결과]

사용자ID별 총주문금액 및 총주문건수 추출 Query 결과(출처: BizSpring)

이상으로 데이터 엔지니어링을 위한 빅쿼리 사례를 살펴보았는데요,

비즈스프링의 웹분석 솔루션을 통해 수집한 데이터가 아닌 GA360으로 수집한 데이터를 활용하여 사용자 데이터를 분석하고 인사이트를 발굴할 수 있었습니다.

현재 GA360을 사용 중이지만 수집한 데이터에서 인사이트를 얻고 싶다면, 비즈스프링의 데이터 엔지니어링 서비스를 통해 더욱 의미있는 데이터 분석을 경험해보세요.

비즈스프링은 다년간의 데이터 엔지니어링 기술을 통해 분석 솔루션을 제공하고 있습니다.

사용자 분석에 대한 컨설팅이 필요할 경우, 데이터 엔지니어링 컨설팅을 통해 원하는 데이터를 가공하여 받아볼 수 있습니다.

Google Cloud Platform Console 고객센터

BigQuery는 페타바이트급 규모이지만 저비용인 완전 관리형 분석용 Google 데이터 웨어하우스입니다. BigQuery는 NoOps이므로 관리해야 할 인프라가 없고 데이터베이스 관리자도 필요 없습니다. BigQuery를 사용하면 데이터 분석을 통해 의미 있는 정보를 찾는 데 집중하고 익숙한 SQL 및 내장형 머신러닝을 탁월한 가성비로 사용할 수 있습니다.

Google Cloud Platform Console의 왼쪽 메뉴에 있는 빅데이터에서 BigQuery를 찾아보세요.

시작하기

BigQuery란 무엇인가요? 소개글을 읽어보세요.

빠른 시작: BigQuery 웹 UI를 사용해 보세요. 공개 데이터세트를 쿼리하고 테이블에 데이터를 로드하는 방법을 알아보세요.

모든 안내 가이드: 모든 BigQuery 작업에 관한 상세 지침입니다.

인기 주제

키워드에 대한 정보 구글 빅 쿼리

다음은 Bing에서 구글 빅 쿼리 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요

  • Google Cloud APAC
  • cloudonair
  • googlecloud
  • googlecloudplatform
  • gcp
  • 구글클라우드
  • 구글클라우드플랫폼
  • 구글
  • 클라우드
  • DW
  • BigQuery
  • 빅쿼리
  • 빅데이터
  • 머신러닝
  • ML

데이터 #웨어하우스 #끝판왕 #BigQuery #어디까지 #알고 #계신가요


YouTube에서 구글 빅 쿼리 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 데이터 웨어하우스 끝판왕 BigQuery 어디까지 알고 계신가요 | 구글 빅 쿼리, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment