데이터 거버넌스 | 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자 35 개의 베스트 답변

당신은 주제를 찾고 있습니까 “데이터 거버넌스 – 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자“? 다음 카테고리의 웹사이트 ppa.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://ppa.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 투이컨설팅-투이톡 이(가) 작성한 기사에는 조회수 2,261회 및 좋아요 39개 개의 좋아요가 있습니다.

데이터 거버넌스란 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업을 가리킵니다. 여기에는 사람이 취해야 하는 조치, 따라야 하는 프로세스, 데이터의 전체 수명 주기 동안 이를 지원하는 기술이 포함됩니다.

데이터 거버넌스 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자 – 데이터 거버넌스 주제에 대한 세부정보를 참조하세요

기업의 역량을 결정짓는 기준이 데이터가 되면서 ‘데이터 거버넌스’와 ‘데이터 관리’가 필요하게 되었습니다.
대부분 많은 사람들이 두 용어를 같은 의미로 이해하고 사용하지만 실제로는 상당히 다른 단어인데요, 어떤점이 다르고 차이점은 무엇인지 영상을 통해 설명 드리겠습니다.
* 투이톡 구독하기: https://www.youtube.com/channel/UCNOcyPHY9cMDE1f05yvvH7g?sub_confirmation=1
* 투이컨설팅 홈페이지: http://www.2e.co.kr/
#데이터 #데이터관리 #데이터거버넌스 #데이터경제 #디지털 #디지털트랜스포메이션 #디지털전환 #디지털탈바꿈 #IT #데이터아키텍처 #데이터모델링 #데이터보안 #마스터데이터 #데이터웨어하우징 #메타데이터관리 #데이터품질

데이터 거버넌스 주제에 대한 자세한 내용은 여기를 참조하세요.

데이터 거버넌스란 무엇입니까? | 팁코 소프트웨어

데이터 거버넌스는 조직의 데이터를 안정적으로 보장하는 프로세스입니다. 또한 조직 전체에서 고품질 정보를 사용할 수 있도록 합니다. 모든 부서는 이 데이터를 기반으로 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.tibco.com

Date Published: 9/14/2021

View: 2326

데이터 거버넌스 – 위키백과, 우리 모두의 백과사전

데이터 거버넌스(data governance)는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, …

+ 여기에 더 보기

Source: ko.wikipedia.org

Date Published: 5/14/2022

View: 1760

데이터 거버넌스란? | 정의, 중요도, 유형 | SAP Insights

데이터 거버넌스의 역할에는 인프라 및 기술 구축, 프로세스와 정책의 설정과 유지관리, 특정 유형의 데이터를 처리하고 보호할 책임과 권한을 지닌 조직 내 개인(또는 …

+ 여기를 클릭

Source: www.sap.com

Date Published: 4/25/2022

View: 8898

데이터거버넌스 필요성과 개념 – 투이컨설팅

▷ 데이터거버넌스는 데이터 전략, 데이터 정책, 데이터 표준, 데이터 프로세스, 데이터조직의 역할과 책임 등을 포함한다. 데이터 전략은 데이터를 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.2e.co.kr

Date Published: 5/7/2022

View: 9727

데이터 거버넌스란 무엇입니까? 도구 및 원칙

데이터 거버넌스는 정보의 효과적이고 효율적인 사용을 보장하는 프로세스, 정책, 역할, 메트릭 및 표준의 모음입니다. 또한 데이터를 데이터 수명 주기 전반에 걸쳐 …

+ 자세한 내용은 여기를 클릭하십시오

Source: azure.microsoft.com

Date Published: 5/7/2021

View: 6348

바람직한 데이터 거버넌스란?··· 베스트 프랙티스 6가지

“데이터 거버넌스는 정보 관련 프로세스를 위한 결정 권한 및 책임에 대한 시스템이며 누가 어떤 정보로 언제 어떤 환경에서 어떤 모델을 사용하여 어떤 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.ciokorea.com

Date Published: 1/15/2021

View: 5851

데이터 거버넌스란 무엇인가요? – Databricks

데이터 거버넌스는 데이터가 가치를 창출하는지 확인하는 감독 행위이며, 비즈니스 전략을 지원하는 활동입니다. 데이터 거버넌스는 단순한 도구나 프로세스가 …

+ 더 읽기

Source: databricks.com

Date Published: 7/21/2021

View: 9446

기업 경쟁력을 높이는 데이터 거버넌스의 변화와 추진방안

데이터 거버넌스는 데이터 표준 및 정책에 따라 비즈니스 데이터를 생성·변경하고 생성된 데이터의 가용성·유용성·무결성과 보안을 관리하는 프로세스 …

+ 여기에 표시

Source: www.samsungsds.com

Date Published: 2/13/2022

View: 6932

빅데이터 거버넌스(Data Governance)의 정의 및 목적, 그리고 …

두 번째의 긴 정의를 살펴보면 정책, 절차, 역할, 책임 등을 조직하고 실행해나가는 활동으로 의사결정, 책임 등의 규정을 적용하여 효율적인 ‘정보자산’ …

+ 여기에 더 보기

Source: kadensungbincho.tistory.com

Date Published: 3/25/2021

View: 6003

주제와 관련된 이미지 데이터 거버넌스

주제와 관련된 더 많은 사진을 참조하십시오 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자
차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자

주제에 대한 기사 평가 데이터 거버넌스

  • Author: 투이컨설팅-투이톡
  • Views: 조회수 2,261회
  • Likes: 좋아요 39개
  • Date Published: 2021. 3. 8.
  • Video Url link: https://www.youtube.com/watch?v=QLfkitI-_M4

Google Cloud

데이터 거버넌스는 수집에서 사용, 폐기에 이르는 데이터 수명 주기 동안 데이터 관리에 사용되는 원칙적인 접근법입니다.

모든 조직에는 데이터 거버넌스가 필요합니다. 모든 업종의 기업들이 디지털 혁신 여정을 진행함에 따라 데이터는 빠른 속도로 가장 가치 있는 소유 자산이 되었습니다.

고위 관리자는 전략적 비즈니스 결정을 내리기 위해 정확하고 시기 적절한 데이터를 필요로 합니다. 마케팅 및 영업 전문가는 고객이 무엇을 원하는지 파악하기 위해 신뢰할 수 있는 데이터를 필요로 합니다. 조달 및 공급망 관리 담당자는 재고를 보관하고 제조 비용을 최소화하기 위해 정확한 데이터를 필요로 합니다. 규정 준수 담당자는 데이터가 내부 및 외부적 의무사항에 따라 처리되고 있음을 증명해야 합니다. 그 밖에도 많은 사례가 있습니다.

데이터 거버넌스란 무엇입니까?

기업에 데이터 거버넌스가 필요한 이유는 무엇입니까?

대부분의 조직이 디지털 또는 물리적으로 저장된 많은 양의 데이터를 가지고 있지만 대부분 데이터가 표준화되지 않은 형식을 가집니다. 또한 조직에서는 연령, 출처 등으로 인해 데이터의 신뢰성을 항상 확신할 수 없습니다. 직원이나 비즈니스 리더는 데이터 품질에 대한 걱정으로 인해 이런 데이터에 의존한 의사 결정을 주저하는 경우가 많습니다. 데이터 거버넌스는 조직의 데이터를 안정적으로 보장하는 프로세스입니다. 또한 조직 전체에서 고품질 정보를 사용할 수 있도록 합니다. 모든 부서는 이 데이터를 기반으로 의사 결정을 내릴 수 있습니다. 데이터 거버넌스는 또한 비즈니스의 디지털 혁신을 주도합니다.

조직은 데이터 거버넌스를 어떻게 구현할 수 있습니까?

대규모 조직에서 데이터 거버넌스를 구현하는 것은 복잡한 작업처럼 보일 수 있습니다. 방대한 양의 데이터, 서로 다른 시스템, 데이터 생성 및 소비에 참여한 수많은 사람들 등 이 모든 것이 데이터 거버넌스를 어려운 작업으로 되게 합니다. 데이터 거버넌스는 한 번에 한 단계씩 접근하는 것이 가장 좋습니다.

1단계: 데이터 거버넌스를 위한 기초 작업

데이터 거버넌스의 기초로서 다음 질문에 답하여 가장 기본적인 것부터 시작하는 것이 중요합니다.

적용 이유

조직은 먼저 데이터 거버넌스 계획의 비전과 사명을 정의해야 합니다. 또한 수익 증대, 더 나은 의사 결정 또는 투명성과 같은 데이터 거버넌스 프로그램의 목표를 정의해야 합니다. 뿐만 아니라 프로그램의 성공을 측정하는 방법을 결정해야 합니다. 명확한 비전은 직원과 기타 이해 관계자가 이 데이터 거버넌스 이니셔티브가 일상 업무 생활에 어떤 영향을 미치고 어떻게 도움이 될 것인지 알 수 있도록 도와줍니다.

담당자

역할과 책임 할당은 중대한 단계입니다. 이 단계에서는 데이터 거버넌스 프레임워크의 구현과 관련된 다양한 작업을 주로 담당할 인력을 정의합니다. 종종 조직은 3계층 접근 방식을 채택하여 데이터 거버넌스 팀을 구성합니다. 운영 위원회, 데이터 거버넌스 사무소 및 데이터 거버넌스 작업 그룹은 이 접근 방식의 세 가지 주요 구성 요소입니다. 이러한 그룹은 서로 협력하여 데이터 거버넌스 프레임워크 구현의 다음 단계를 결정합니다.

방법

데이터 거버넌스 팀은 조직의 현재 데이터 자산에 대한 분석부터 시작해야 합니다. 엄청난 양의 데이터가 매일 조직 안팎으로 흐릅니다. 이 모든 데이터를 데이터 거버넌스 프레임워크의 범위로 가져오려고 하는 것은 좋은 생각이 아닐 수 있습니다. 따라서 데이터 거버넌스 팀은 프레임워크에 포함할 몇 가지 특정 데이터 자산을 선택해야 합니다. 예를 들어 전자 상거래 회사는 처음에 구매 내역만 데이터 거버넌스 계획에 포함하도록 선택할 수 있습니다. 다음 단계는 수용 가능한 데이터 형식을 정의하고 전체 조직에서 사용할 데이터 워크플로 및 정책을 작성하는 것입니다. 이것이 단계적 데이터 거버넌스 구현을 위한 청사진입니다.

2단계: 데이터 거버넌스 구현 계획

1단계: 데이터 가용성 보장

데이터 거버넌스 팀은 표준하고 제어하려는 특정 데이터 자산의 가용성을 보장해야 합니다. 대규모 조직의 경우 데이터는 고객 관리 시스템, 기업 관리 애플리케이션, 판매 기록 및 파트너 시스템과 같은 다양한 정보 사일로에 분산되어 있습니다. 이 모든 데이터를 한 곳에서 쉽게 사용할 수 있어야 합니다. 조직은 이러한 분산 데이터 자산에 대한 통합 메커니즘을 설계해야 합니다.

2단계: 데이터 거버넌스 구현을 위한 데이터 무결성 보장

정리되고 표준화되고 신뢰할 수 있는 데이터 자산은 데이터 거버넌스 프레임워크의 중요한 구성 요소입니다. 정리되고 신뢰할 수 있는 데이터가 무엇인지에 대한 정의를 찾으려면 먼저 매일 데이터를 사용하는 팀에 물어보십시오. 그들에게 가장 적합한 데이터 형식이 무엇인지 물어보십시오. 그들의 답변에 따라 아래와 같이 다단계 데이터 개선 워크플로를 시작합니다.

프로파일링: 데이터 자산은 일부만이 비즈니스 결정에 유용하게 사용됩니다. 예를 들어, 고객의 위치는 비즈니스 결정과 관련이 있을 수 있지만 성별은 관련이 없습니다. 먼저 데이터 자산의 중요한 구성 요소를 정의합니다. 그런 다음 중요하지 않은 모든 것을 삭제합니다.

데이터 구문 분석 및 표준화: 데이터 거버넌스의 가장 큰 도전 중 하나는 데이터 형식의 다양성입니다. 명명 규칙에서 시작하여 데이터 속성에 이르기까지 여러 가지 불일치가 있을 수 있습니다. 데이터 거버넌스 프레임워크에는 데이터를 구문 분석하고 표준화하는 기술이 포함되어야 합니다. 이 기술은 데이터 태그 추가, 속성 정규화 및 명명 규칙 표준화로 구성될 수 있습니다.

데이터 강화: 데이터 거버넌스 팀은 데이터 자산을 강화하기 위해 노력해야 합니다. 여기에는 두 개 이상의 데이터 부분을 한 곳에 결합하는 작업이 포함될 수 있습니다. 또한 보완 정보 및 메타데이터에 의한 데이터 보강이 포함됩니다.

3단계: 데이터 정책에 대한 책임 및 준수 강화

데이터 거버넌스 노력은 데이터 거버넌스 팀 구성원에게만 국한되지 않습니다. 데이터 거버넌스 계획의 성공을 위해서는 조직 전체의 기여가 필요합니다. 각 특정 데이터 자산에는 해당 데이터의 무결성을 책임지는 소유자가 있어야 합니다. 해당 소유자는 정책 및 워크플로의 도움을 받아 데이터 자산이 항상 고품질을 유지하도록 해야 합니다. 이 단계는 또한 데이터 거버넌스를 수용하기 위해 조직의 데이터 문화도 변경할 것을 필요로 합니다. 데이터 거버넌스는 일회성 프로젝트가 아니며 진행중인 과정입니다.

4단계: 지속적인 피드백 및 모니터링

데이터 거버넌스를 위한 시스템과 워크플로는 지속적인 모니터링과 피드백을 필요로 합니다. 이 문제는 데이터 거버넌스 프레임워크가 인력과 기술을 포함하는 하이브리드 시스템인 것으로 하여 중요하게 제기됩니다. 기술은 업그레이드와 버그 수정을 필요로 하며 인력은 끊임없는 동기 부여와 알림이 필요합니다. 피드백 시스템은 데이터 거버넌스 노력이 성공 기준 및 목표를 충족하는지를 평가하는 데서 중요합니다. 충족하지 못하는 경우 데이터 거버넌스 프레임워크의 특정 조정이 필요합니다.

데이터 거버넌스 프레임워크 구현은 반복적인 프로세스입니다. 지속적인 모니터링과 피드백을 통해서만 개선할 수 있습니다.

데이터 거버넌스 팀 및 역할

데이터 거버넌스는 고도로 사람 중심적인 개념입니다. 데이터 거버넌스 프레임워크를 구현에는 조직 전체의 여러 팀이 있어야 합니다. 팀에는 다음이 포함됩니다.

운영 위원회: 데이터 거버넌스 노력을 주도하고 감독하는 고위급 팀입니다. 운영 위원회는 종종 재무, 마케팅, 영업 또는 생산 분야의 고위 경영진으로 구성됩니다. 위원회에는 회사 내 모든 최상위 조직의 이해 관계자가 한 명 이상 포함되어야 합니다. 위원회에는 예산을 할당하고, 정책을 만들고, 프로젝트를 우선 순위 목록에 올릴 수 있는 권한이 있는 리더가 포함됩니다.

데이터 거버넌스 사무소: 이 중간 관리 위원회는 데이터 거버넌스 노력에 대한 지침을 제공합니다. 이 팀의 주요 역할은 디지털 거버넌스 리더, 코디네이터 및 기술 전문가입니다. 이 팀은 서로 협력하여 데이터 표준화 정책, 데이터 거버넌스 워크플로 및 프로세스의 초안을 작성합니다. 또한 IT와 협력하여 데이터 거버넌스 구현과 관련된 기술적 문제를 해결합니다.

데이터 거버넌스 작업 그룹: 이 그룹은 데이터 거버넌스 사무실의 권장 사항에 따라 사업을 진행합니다. 이 그룹에는 일반적으로 데이터 소유자, 데이터 품질 책임자, 데이터 관리자, 데이터 설계자 및 분석가가 포함됩니다. 데이터 거버넌스는 실제로 다양한 팀과 개인 간의 협력을 필수로 하는 거대한 작업입니다.

데이터 거버넌스 시스템을 구현하면 어떤 이점이 있습니까?

데이터 거버넌스 시스템을 구현하면 다음과 같은 많은 이점이 있습니다.

위키백과, 우리 모두의 백과사전

데이터 거버넌스(data governance)는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터품질, 관리규정 준수를 강조한다.[1] 매크로 레벨과 마이크로 레벨에서 둘 다 사용되는 용어이다. 전자의 경우 정치적 개념으로서 국제 관계와 인터넷 거버넌스의 일부를 형성한다. 후자의 경우 경영 개념이며 회사 거버넌스의 일부를 이룬다.

같이 보기 [ 편집 ]

각주 [ 편집 ]

SAP Insights

기업 데이터 거버넌스는 조직의 데이터가 처음부터 정확하고 이후 입력, 저장, 조작, 액세스, 삭제되는 과정에서 올바르게 처리되도록 시행하는 모든 정책과 절차를 포함합니다. 데이터 거버넌스의 역할에는 인프라 및 기술 구축, 프로세스와 정책의 설정과 유지관리, 특정 유형의 데이터를 처리하고 보호할 책임과 권한을 지닌 조직 내 개인(또는 직위)을 식별하는 활동 등이 있습니다.

데이터 거버넌스는 규제준수의 핵심 부분입니다. 시스템은 저장, 처리, 보안 메커니즘을 관리합니다. 하지만 정책이 정의되고 절차가 건전하며 기술이 적절하게 관리되고 데이터가 보호받도록 하는 일은 사용자, 즉 거버넌스 조직의 측면입니다. 데이터는 시스템에 입력되기 전, 사용되는 동안, 사용하거나 다른 곳에 저장할 목적으로 시스템에서 검색될 때 모두 올바르게 처리되어야 합니다.

데이터 거버넌스가 데이터의 정확성, 신뢰성, 무결성, 보안을 구축하는 정책과 절차를 설정하는 데 비해 데이터 관리는 이러한 절차를 구현합니다. 데이터 관리를 책임지는 사람은 데이터를 처리, 저장, 보호하는 데 사용되는 절차와 툴을 관리하고 감독합니다.

데이터거버넌스 필요성과 개념

데이터거버넌스 필요성

우버는 2019년 스트라타 데이터 컨퍼런스에서 데이터 분석가들의 어려움을 극복한 사례를 발표했었다. 수년 전에 우버의 데이터사이언티스트들은 관련성있는 데이터(relevant data)를 찾는데 1인당 평균 1주에 3시간 정도를 사용하고 있었다고 한다. 이 정도 시간이 드는 것은 큰 문제가 아니라고 볼 수도 있지만, 우버는 문제라고 인식했다. 이를 해결하기 위해 우버는 Databook을 만들었다. 일종의 데이터카탈로그이다. 결과적으로 우버의 데이터사이언티스트들은 데이터 활용에 드는 시간을 줄일 수 있었다.

우버가 겪은 문제는 대부분의 조직에서도 발생한다. 데이터를 찾는 것뿐만 아니라, 정제하고 활용하는데도 어려움을 겪고 있다. 이러한 문제를 해결하기 위해서는 데이터거버넌스가 정착되어야 한다. 기업 내부에서 데이터 활용에 어려움을 겪는 이유는 다음과 같다.

▶ 데이터생산자와, 데이터처리자, 데이터사용자가 다르다. 데이터사용자는 데이터가 어떻게 생산되었고 어떤 기준에 의해서 처리되었는지 알지 못한다. 또한 어떤 데이터가 생산되고 있는지도 모른다.

▶ 동일한 데이터를 여러 부서가 사용한다. 사용 부서의 관리 목적에 따라 데이터의 개념과 분류 기준, 가공 방법 등이 다르다. 하나의 데이터로 여러 부서의 서로 다른 사용 목적을 모두 충족시키기는 쉽지 않다.

▶ 기업이 사용하는 애플리케이션을 외부에 의존하는 경우가 늘어나고 있다. 외부에서 개발된 ERP를 도입하거나 또는 SaaS 형태로 외부의 애플리케이션을 사용하기도 한다. 기업이 사용하는 데이터 정의와 외부 공급자가 개발한 데이터 정의는 서로 맞지 않다.

▶ 데이터 규제가 점점 더 다양하게 적용되고 있다. 개인데이터의 경우 데이터사용자는 법규에 정해진 기준에 따라서 데이터를 활용하여야 한다. 데이터 규제를 따르지 않으면 기업은 심각한 제재를 받을 수 있다. 기업 내부의 다양한 데이터 사용자들이 데이터 규제를 준수할 수 있도록 가이드하기는 쉽지 않다.

▶ 데이터를 사용하기 위해서는 데이터 내용과 함께 데이터 컨텍스트를 알아야 한다. 데이터베이스에 기록된 데이터는 값과 명칭만 있는 경우가 대부분이다. 데이터 컨텍스트를 기록하는 것이 메타데이터이다. 메타데이터가 없으면 데이터의 원래 의미와 다르게 활용할 수 있는 위험이 따른다.

▶ 데이터는 사용하려는 부서 및 사용자는 많다. 그리고 점점 늘어난다. 하지만 기업 내에서 데이터를 관리하는 인원은 충분하게 할당되어 있지 않다. 또한 데이터 자체를 위한 투자도 소극적이다. 데이터 활용은 수익 창출, 비용 절감 등의 성과와 직접 연결된다. 데이터 관리는 활용을 위한 기반을 만드는 것인데, ROI를 중시하는 기업 문화에서는 데이터 투자의 타당성을 인정받기가 쉽지 않다.

데이터거버넌스 목표

디지털화 진전에 따라 조직 내부의 데이터는 폭발적으로 증가하고 있다. 하지만 활용되는 데이터는 많지 않다. 데이터분석가들은 데이터는 많지만 활용할 수 있는 데이터는 별로 없다고 이야기한다. 또는 데이터를 활용하기 위해서 데이터를 탐색하고 정제하고 가공하는데 너무 많은 시간과 노력이 든다고 이야기한다.

이러한 현상은 조직 내부에 데이터 사일로가 다수 존재하기 때문이다. 데이터 사일로를 제거하는 것이 데이터거버넌스의 궁극적 목표이다. 특정 부서 또는 사용자만이 이해할 수 있는 데이터는 전사 차원에서는 가치가 없기 때문이다. 데이터거버넌스의 목표는 다음과 같다.

▶ 데이터 규제를 준수하여, 예상되는 컴플라이언스 리스크에 대처한다.

▶ 고객으로부터 데이터를 안전하게 처리하고 있다는 신뢰를 얻는다.

▶ 데이터사용자들의 데이터 이해와 신뢰를 높여서, 데이터활용을 확산시킨다.

▶ 데이터 컨텍스트를 공유함으로써, 데이터 오용을 방지한다.

▶ 데이터 관리 기준을 정립하고 프로세스를 시스템화하여, 데이터 비용을 절감시킨다.

▶ 데이터 자산의 훼손 및 유출 등을 방지하여, 디지털자산을 안전하게 보관한다.

▶ 활용할 수 있는 외부데이터를 확보하고 융합하여, 데이터 경영 기회를 활용한다.

데이터거버넌스 개념

UBM Survey의 2017년 조사에 의하면, 데이터거버넌스가 무엇인가에 대해서는 다양한 생각들이 존재한다. 가장 많은 지지를 받고 있는 것은 조직 내부의 데이터 플로우를 파악하는 것이다. 한편으로 데이터 품질에 관한 것으로 이해하는 경우도 있다. 데이터거버넌스는 기업 경영에서 데이터의 중요성이 커지면서 그 개념도 발전하여 왔다고 보는 것이 맞을 것이다.

[그림 1] 데이터거버넌스의 정의에 대한 의견 / Source: UBM survey

데이터거버넌스는 데이터의 가치를 보전하고 활용하기 위한 목적으로 수행하는 전사 차원의 경영 체계라고 할 수 있다.

▶ 데이터거버넌스는 데이터 전략, 데이터 정책, 데이터 표준, 데이터 프로세스, 데이터조직의 역할과 책임 등을 포함한다. 데이터 전략은 데이터를 통해서 얻고자 하는 가치를 설명한다.

▶ 데이터거버넌스의 대상은 조직 전체이다. 어느 특정 부서에 국한되지 않는다. 단위 조직은 전사 데이터 목표를 달성하기 위해서 권한과 책임을 갖는다.

▶ 데이터거버넌스는 데이터의 가용성, 사용성, 무결성, 안전성 등을 확보하고 증진하는데 목적이 있다.

▶ 데이터거버넌스는 데이터자산을 효과적으로 관리하기 위한 기술, 소프트웨어, 프로세스, 데이터 인력 등을 대상으로 한다.

[그림 2] 데이터거버넌스의 정의 / Source: Data Governance Institute

저작권자 © 투이컨설팅 무단전재 및 재배포 금지

데이터 거버넌스란 무엇입니까? 도구 및 원칙

데이터 거버넌스 정의

데이터 거버넌스는 정보의 효과적이고 효율적인 사용을 보장하는 프로세스, 정책, 역할, 메트릭 및 표준의 모음입니다. 또한 데이터를 데이터 수명 주기 전반에 걸쳐 보안, 비공개, 정확 및 사용성을 유지하는 데이터 관리 프로세스를 수립하는 데 도움이 됩니다.

강력한 데이터 거버넌스 전략은 데이터를 사용하여 비즈니스 성장을 주도하는 모든 조직에 매우 중요합니다. 향상된 의사 결정을 내리고 경쟁 시장에서 성공적인 결과를 보장합니다. 방대한 양의 내부 및 외부 데이터를 수집할 때 위험을 관리하고 비용을 절감하며 비즈니스 목표를 효과적으로 실행하는 전략이 필요합니다.

바람직한 데이터 거버넌스란?··· 베스트 프랙티스 6가지

Image Credit : Getty Images Bank

즉, 비즈니스 관점에서 데이터 거버넌스가 부실하다면 데이터가 있어도 쓸모가 없다. 모범 관행과 가이드를 제공하는 조직인 DGI(Data Governance Institute)는 데이터 거버넌스에 대해 다음과 같이 정의한다.“데이터 거버넌스는 정보 관련 프로세스를 위한 결정 권한 및 책임에 대한 시스템이며 누가 어떤 정보로 언제 어떤 환경에서 어떤 모델을 사용하여 어떤 조치를 취할 수 있는지 설명하는 합의된 모델에 따라 실행된다.”많은 조직에서 시행 중인 디지털 트랜스포메이션을 통해 기업에 강력한 데이터 거버넌스가 중요하다는 점이 입증됐다. 왜냐하면 이 이니셔티브의 성공의 상당 부분이 신뢰할 수 있고 안전하며 적절한 시기에 적절한 사람들에게 제공될 수 있는 데이터에 달려 있기 때문이다.당연하겠지만, 데이터 거버넌스 제품과 서비스에 대한 수요가 증가하고 있다. 리서치기업 M&M(Markets and Markets)은 전 세계 데이터 거버넌스 시장이 2020년의 21억 달러에서 2025년까지 57억 달러로 성장할 것으로 전망했다. 22%의 CAGR에 해당한다.급격한 데이터 용량 증가, 규제 및 준수성 의무사항 증가, 비즈니스 협업 증가 등의 요소가 시장의 성장을 주도할 것으로 예상된다고 해당 보고서는 밝혔다. 전 세계 정부 기관들이 다수의 데이터 프라이버시 규정을 수립한 상황에서 조직 내의 데이터를 적절하게 저장하고 사용하며 폐기하는 것이 그 어느 때보다도 중요해졌다는 진단도 있었다.또한 소프트웨어 개개발에 대한 데브옵스(DevOps) 도입 증가가 데이터 거버넌스의 수요 증가에 영향을 미치고 있으며, 데브옵스 도입과 데이터 거버넌스 프로그램의 구현 사이에는 강력한 상관관계가 있다고 M&M은 강조했다.효과적인 데이터 거버넌스 프로그램을 개발하기 위해 참고할 만한 베스트 프랙티스를 살펴본다.조직에 모든 데이터가 똑같이 중요한 것은 아니다. 데이터 인프라의 어떤 측면이 비즈니스에 어떻게 중요한지 아는 것도 중요하다.뉴저지주 사법부의 CIO 잭 맥카시는 “영역 전체를 보다 보면 중요한 요소가 수십에서 수백 개의 시스템 및 애플리케이션과 관련되어 있음을 알게 된다. 이런 중요한 데이터 요소는 여러 보고서에서 시스템 전반에 걸쳐 발견되고 있다. 우선 이런 중요한 요소를 식별함으로써 소스까지 추적하여 (해당하는) 정책과 절차를 식별할 수 있다”라고 말했다.좀더 근본적인 수준에서 조직은 중요한 정보가 비즈니스의 성공에 어떤 영향을 미치는지 이해해야 한다. 이는 조직의 최고위 수준을 포함하여 강력한 데이터 거버넌스를 뒷받침하는 문화를 만드는 데 도움이 될 수 있다.펜실베이니아 인디애나 대학교(Indiana University of Pennsylvania)의 CIO 빌 밸린트는 “경험상, 데이터 거버넌스의 효과성은 데이터를 중요 전략 자산으로 포용할 의지와 능력이 있는 기업에서 확인할 수 있다”라고 말했다.밸린트는 “미가공 데이터를 유용한 정보로 전환하는 작업을 결코 가볍게 취급해선 안 된다”라고 말했다.데이터는 한 시점에만 존재하지 않는다. 생성되고 정리되며 업데이트되고 저장되며 분석되고 전송되며 백업되고 삭제되는 등 다양한 과정을 거친다. 라이프사이클의 모든 단계에는 잠재적인 접점이 있으며 다양한 단계를 통해 데이터를 잘 관리하려면 각 단계마다 정책과 절차가 있어야 한다.맥카시는 “라이프사이클 전반에 걸쳐 누가 소유자[이고] 어떤 시스템이나 사람이 데이터를 변경할 수 있는지 확인하라”라고 말했다. 이를 통해 조직은 감사 추적과 기타 데이터 확인점을 제공하여 데이터 요소를 완전하고 꼼꼼하게 파악하도록 할 수 있다고 그가 덧붙였다.그는 한 사례를 들려줬다. 뉴저지 사법부에서 보석을 없애는 것을 골자로 하는 형사 개혁과 관련해 위험 평가를 실시하려 할 때 정책이 필요했다.맥카시는 “평가 도구의 채점을 자동화하기 위해 필요한 데이터를 수집하고 주요 요소를 식별하고자 했다. 이를 위해 체포 시점의 라이프사이클까지 거슬러 올라갔다. 우리는 법원에 영장을 신청하는 순간에 필요한 데이터가 존재하지 않는다는 것을 발견했다. 그에 앞서 피고를 식별하기 위해 집행부에서 지문 확인을 완료할 때 이미 데이터의 소스가 발생했던 것이다”라고 말했다.그는 이어 “이렇듯 데이터의 소스를 추적하면서 우리는 내부 및 외부 파트너들에게 지침과 정책을 제공할 수 있었다. 우리가 구축하고 있는 시스템의 주요 요소를 우리뿐 아니라 다른 다운스트림 파트너들까지 사용할 수 있도록 한 것이다”라고 말했다.비즈니스 사용자는 일반적으로 좋은 데이터 거버넌스의 최대 수혜자다. 그 이유는 이를 통해 업무 처리에 도움이 되는 고품질의 가용성 데이터를 확보할 수 있기 때문이다. 그들이 적절할 때 거버넌스 프로세스에 참여해야 하는 이유이기도 하다.패키징 기업 알파 패키징(Alpha Packaging)의 수석 기술 부사장 겸 CIO 브라이언 필립스는 “나는 데이터 소유자 또는 보조 책임자로 사용자 그룹을 형성하는 것을 좋아한다. 그리고 그들에게 개발하고 우선순위를 설정하는 대상에 대한 일정 수준의 예산 통제권을 제공한다”라고 말했다.이를 통해 여러 부서들 사이의 협력이 구축되고 지식 공유가 촉진되며 심지어 우호적인 경쟁이 가능해진다고 필립스가 말했다. 그는 “이 그룹이 성취감을 공유해야 한다. 데이터 거버넌스를 제대로 수행하지 않으면 부정적으로 비쳐질 수 있다”라고 덧붙였다.필립스는 “데이터 소유자는 데이터 카탈로그화에 적합한 사람인 경우가 많다. 그들보다 데이터에 관해 더 잘 아는 사람은 없다. 이 그룹을 활용해 어디에 문제가 있는지 확인하고 해결해야 한다”라고 말했다.모든 비즈니스 트랜잭션에 맥락을 제공하는 비즈니스 관련 데이터가 마스터 데이터다. 거버넌스에는 이 마스터 데이터에 대한 관리가 포함되어야 한다. 효과적인 마스터 데이터 관리는 더 큰 데이터 일관성과 정확도로 이어질 수 있다.필립스는 “마스터 데이터의 표준화 및 교차 참조에 집중해야 한다. 이 영역을 간과하는 경우가 많다. 이것이 없다면 데이터가 사일로화 되고 영역 간 데이터를 연계시킬 수 있는 방법이 없다. 마스터 데이터 그룹이 이것을 소유하고 비즈니스 사용자와 긴밀하게 협력하도록 하는 것이 매우 중요하다”라고 말했다.마스터 데이터 관리를 담당하는 그룹이 IT의 일부가 아니라 여러 부서를 넘나드는 비즈니스 부서일 때 이상적이라고 필립스가 말했다.데이터 거버넌스는 정보 관점에서 얻은 인사이트의 실질적인 가치를 반드시 반영하지 않는다. 이로 인해 직관성이 떨어지는 것이 사실이다.의료 컨설팅 기업 임팩트 어드바이저스(Impact Advisors)의 수석 자문가 겸 가상 CIO 마크 존슨은 “정보란 조직을 위한 가치를 생성하는 데이터의 상관관계이다”라며, 여기에는 재무기록, 환자기록, 직원기록 등이 포함된다고 설명했다.존슨은 “거버넌스에는 데이터 분류 이상의 것이 필요하다. 정보 분류가 필요하다. 정보 분류는 조직에 대한 가치와 분실, 도난, 파괴 시의 후속 영향을 나타낸다”라고 말했다. 그는 기업 계정에서 개인 계정으로 정보를 이메일로 전달하는 직원의 예를 들었다.존슨은 “우리 조직에는 전자 보호 건강 정보 유출을 차단하기 위해 데이터 손실 방지 조치가 마련되어 있었다. 우리가 단순히 데이터뿐 아니라 정보를 분류하는 조치를 취하지 않았다면 그저 작업 목록을 차단했을 것이다. 우리가 추가적으로 상당한 주의를 기울이지 않았다면 시스템 안에서 수만 개의 긍정 오류가 발생하여 보안 운영 센터에 알림 피로, 과도한 네트워크 트래픽, 불필요하게 고조된 알람 상태가 발생했을 것이다”라고 말했다.데이터 거버넌스를 위해서는 누가 어떤 정보에 액세스하며 그 정보가 조직, 고객, 직원, 파트너 등에게 얼마나 중요한지를 파악해야 하며, 이는 세부적인 상당한 주의가 필요하다.존슨은 “조직이 데이터 거버넌스 프로세스에 충분히 깊이 관여하지 않고 비즈니스의 근간이 되는 정보의 보호, 가용, 복구를 과대/과소 엔지니어링할 위험이 있다”라고 말했다.정보 리소스와 중요한 보안 및 프라이버시 위험의 경쟁적 가치 때문에 IT 임원은 데이터 배포 및 사용 방식을 급격하게 제한하고 싶을 수 있다. 이로 인해 거버넌스가 조직에서 긍정적이기 보다는 부정적인 활동으로 비쳐져 궁극적으로 혁신이 저하될 가능성이 높다.보험 제공사 WAEPA(Worldwide Assurance for Employees of Public Agencies)의 CIO 브랜든 존스은 “강력한 제한은 가치 생성 제한으로 이어지고 비즈니스 가치를 저해한다. 이는 분노와 기업 기술에 대한 사용자 수용 부재로 이어진다”라고 말했다.WAEPA는 이질적인 소스들로부터 얻은 데이터를 비즈니스 이해관계자의 필요에 기초하여 여러 개의 시각화를 활용하는 하나의 플랫폼으로 통합하는 통합되고 포괄적인 플랫폼을 개발했다고 존슨이 말했다. 그 목표 중 하나는 더욱 자신감 있는 의사 결정을 지원하기 위한 데이터의 접근성, 정확도, 완전성 개선이다.존스는 “조직의 리더는 지속적으로 발전하여 비즈니스 요구를 충족해야 하며, 이를 위해 각 이해관계자가 기여할 수 있어야 한다”라고 말했다. 또한 그들은 업무에 중요한 정보에 쉽고 안전하게 액세스할 수 있어야 한다.존스는 “거버넌스를 통해 [문제에] 적절한 답변을 제공하고 데이터를 활용하여 이 문제를 해결하기 위한 결정에 정보를 제공한다”라고 말했다[email protected]

데이터로 경영하라 – 기업 경쟁력을 높이는 데이터 거버넌스의 변화와 추진방안

IT테크놀로지

부창완

데이터 거버넌스(Data Governance)의 변화

데이터 거버넌스는 데이터 표준 및 정책에 따라 비즈니스 데이터를 생성·변경하고 생성된 데이터의 가용성·유용성·무결성과 보안을 관리하는 프로세스입니다. 많은 조직에서 업무 데이터를 분석한 결과로 비즈니스 의사 결정을 하고 있어 그 중요성이 높아지고 있습니다.

과거의 데이터 거버넌스는 비교적 간단했습니다. 비즈니스 데이터는 업무 시스템에서 생성되어 방화벽 뒤에 보관되었으며 IT 또는 BI(Business Intelligence) 전문가들이 특정 업무에서 산출되는 고정적인 데이터를 분석하여 보고하였습니다.

2010년대 들어 기업들이 데이터의 가치를 깨닫고 본격 활용에 나서면서 부서마다 데이터 분석 결과가 다르게 산출되는 문제가 발생하였고 분석 결과를 놓고 많은 논쟁이 있었습니다. 분석에 사용한 데이터가 적절한지, 데이터 품질은 믿을 수 있는지 등을 논의하는 과정에서 ‘전사적으로 동일한 기준에 의한 데이터 관리’의 필요성이 대두되었습니다.

그래서 전사 데이터 기준을 하나로 정의하고 그 기반에서 데이터 활동을 전개하는 기준정보 관리체계(Master Data Management, MDM)가 도입되었습니다. 이를 토대로 데이터를 잘 활용하는 것이 수익 증대 및 원가 절감과 직결된다는 것을 경험하면서 전사 관점에서 데이터 과제를 발굴하고 추진하게 된 것입니다. 기준정보 관리체계가 등장하면서 데이터 거버넌스는 진일보했으며, IT 부서가 아니라 혁신 담당 부서와 현업 부서에서 데이터 표준 수립 및 데이터 오너십을 포함한 R&R(Role and Responsibilities) 정립을 담당하게 되었습니다.

최근에는 저비용 스토리지 및 컴퓨팅 리소스가 등장하고 더욱 다양한 유형의 데이터에 접근이 가능해지면서 많은 조직의 데이터 사이언티스트들과 현업들은 데이터를 빠르게 분석할 수 있는 방법이 필요하게 되었습니다. 이러한 요구로 인해 데이터 분석이 중앙집중식에서 분산·셀프 서비스화 되어가고 있습니다.

기준정보 관리체계(MDM)가 등장하면서 데이터 거버넌스는 진일보했습니다.디지털 경제는 곧 데이터 경제입니다. 디지털화는 빅데이터 시대를 열었으며 조직의 데이터는 폭발적으로 증가하고 데이터의 원천도 내부에서 외부로 확대되었습니다. 과거에는 내부에서 발생한 데이터가 전부였지만 이제는 오픈 데이터, 소셜 데이터 등을 이용할 수 있게 되었습니다. 디지털 경제는 인터넷 또는 모바일에서 거래가 대부분 이루어지고 있으며, IoT(Internet of Things)를 이용한 사물 간 연결, 챗봇과 음성봇을 활용한 고객 서비스 등이 확대되고 있습니다. 디지털 경제 이전에는 거래가 확정된 경우에만 고객 데이터를 수집하였으나 지금은 고객 접점에서 발생하는 모든 데이터로 범위가 확대되었습니다.

또한 개인 데이터 보호 규제는 강화되고 있습니다. 기업은 개인 데이터를 안전하게 보관하는 것뿐만 아니라 데이터 사용 동의, 데이터 삭제 요청, 프로파일링 중지 요청 및 데이터 전송 요청 등의 개인 데이터 권리 보장을 위한 규제를 준수해야 합니다. 개인 데이터 보호 외에도 자금 세탁 방지, 건전성 규제 등 기업에 대한 규제들은 대부분 데이터와 관련성이 크기 때문에 데이터를 잘 관리하지 않으면 이러한 규제를 지킬 수 없고 결국 큰 손실을 초래하게 됩니다.

다양한 원천으로부터 고객 데이터를 수집해 통합·분석하여 업무에 내재화함과 동시에 데이터 컴플라이언스를 준수하면서 외부와 데이터를 주고받을 수 있으려면 데이터 거버넌스를 정립하는 것이 필수적입니다. 이 기반을 갖춘 다음에 디지털 비즈니스를 도입하거나 확장해야 합니다.

데이터 거버넌스 목표 및 이점

데이터 거버넌스의 주요 목표는 조직의 데이터 사일로를 분해하는 것입니다. 이러한 사일로는 일반적으로 중앙집중식 제어가 아닌 개별 업무 시스템을 통해서 데이터가 생성되고 배포·공유될 때 형성됩니다. 또 다른 목표는 시스템에 오류가 발생하는 것을 방지하고 고객 및 기타 민감한 정보 등 개인 데이터의 잠재적 오용을 차단하여 올바르게 활용되도록 하는 것입니다. 이것은 지속적인 사용량 모니터링과 데이터 활용 정책의 수립·시행을 통해 달성할 수 있습니다. 그 외에도 데이터 거버넌스 적용을 통해 데이터 품질을 높일 수 있으며 궁극적으로 경영진의 올바른 의사결정을 이끌어내 경쟁 우위를 점하고 수익·이익을 높일 수 있습니다.

데이터 거버넌스의 궁극적 목표는 경영진의 올바른 의사결정을 이끌어내 경쟁 우위를 점하고 이익을 높이는 것입니다.

데이터 거버넌스 갭(Gap)

데이터로 인해 얻을 수 있는 효과와 실제 얻고 있는 효과의 차이를 데이터 거버넌스 갭이라고 합니다. 거버넌스 갭은 세 가지 유형으로 발생합니다. (출처: Hitachi Vantara)

(1) 어떤 데이터를 어디에 축적하고 있나?

☞ 데이터의 37% 이상이 모바일에서 발생

(2) 데이터로 어떤 일을 하고 있나?

☞ 데이터의 75%가 미사용되며, 15% 미만의 데이터는 분류하여 사용

(3) 데이터의 관리 책임자가 있나?

☞ 10% 미만의 조직이 CDO(Chief Data Officer)를 보유

어떤 데이터를 어디에 축적하고 있나 데이터의 37% 이상이 모바일에서 발생 데이터로 어떤 일을 하고 있나 데이터의 75%가 미사용, 15% 미만의 데이터는 분류사용 데이터의 관리 책임자가 있나 10% 미만의 조직이 CDO)를 보유 거버넌스 갭 발생 데이터 거버넌스 갭 (출처: Hitachi Vantara)

? 튼튼한 데이터 전략을 수립하여 추진 중이다: 선진 조직 67%, 일반 조직 27%

? 강력한 데이터 거버넌스를 적용 중이다: 선진 조직 63%, 일반 조직 32%

? 명확한 데이터 분석 방법론을 활용 중이다: 선진 조직 63%, 일반 조직 24%

? 데이터 분석가의 역할과 커리어패스를 운영 중이다: 선진 조직 60%, 일반 조직 22%

데이터 거버넌스 갭이 작은 조직(선진 조직)과 그렇지 않은 조직(일반 조직)의 중요한 차이점은 다음과 같습니다. (출처: Hitachi Vantara)선진 조직과 일반 조직 간의 데이터 거버넌스 갭은 평균 두 배 이상이며 데이터 거버넌스 갭이 클수록 기업 성과 차이도 클 것이라는 예측이 가능합니다. 이러한 데이터 거버넌스 갭을 줄이기 위한 구체적인 방안은 데이터 거버넌스 프레임워크와 조직 R&R을 정립하는 것입니다.

데이터 거버넌스 프레임워크의 구성

데이터 거버넌스 프레임워크는 거버넌스 프로그램을 위한 정책, 규칙, 프로세스, 조직 구조 및 기술로 구성됩니다. 조직의 거버넌스 프레임워크를 문서화하고 관련된 모든 사람에게 공유해야 하며 기술적으로는 데이터 거버넌스 소프트웨어를 사용하여 거버넌스 프로그램 관리를 자동화할 수 있습니다. 데이터 거버넌스 도구는 프레임워크의 필수 요소는 아니지만, 프로그램과 워크플로우의 관리·협업·데이터 카탈로그 생성 등을 지원합니다. 또한, 데이터 품질관리, 메타 데이터 관리 및 기준정보 관리(MDM) 도구와 함께 사용할 수 있습니다.

데이터 거버넌스의 비즈니스 가치를 입증하려면 데이터 품질 개선 결과를 정량화할 수 있는 메트릭(Metric)의 개발이 필요합니다. 예를 들어 분기별로 해결된 데이터 오류 수와 그것으로 인한 수익 증가·비용 절감 등이 있습니다. 일반적인 데이터 품질 메트릭은 데이터 세트, 데이터 완전성 및 일관성과 같은 관련 속성의 정확도와 오류율을 측정하는 용도로 사용합니다. 거버넌스 프로그램은 셀프 분석하는 사용자가 데이터에 정확하게 액세스 할 수 있도록 해야 함은 물론 데이터를 오용하거나 개인정보 보호 및 보안을 침해하지 않도록 해야 합니다.

빅데이터 시스템의 발전은 새로운 데이터 거버넌스 요건을 제기하게 되었습니다. 데이터 거버넌스 프로그램은 전통적으로 관계형 데이터베이스에 저장된 정형 데이터에 중점을 두었지만, 이제는 빅데이터 환경에서의 정형·비정형·반정형 데이터는 물론 하둡(Hadoop)과 스파크(Spark) 등 다양한 데이터 플랫폼 환경을 지원해야 합니다. 빅데이터 세트는 데이터 레이크(Data Lake)에 원시 형식으로 저장되고 분석의 용도와 목적에 맞게 필터링하여 사용합니다.

디지털 경제 시대의 데이터 거버넌스 프로그램은 빅데이터 환경에 부합하는 다양한 플랫폼을 지원해야 합니다.

데이터 거버넌스 R&R 운영 모델

■ 데이터 거버넌스 위원회(DGC, DG Council)

데이터에 관한 정책을 발의하고 결정합니다. 조직 내 여러 부서에서 인력을 차출하여 구성함으로써 전체 조직원을 대표할 수 있어야 합니다.

■ 최고경영진

탑다운(Top-down) 방식으로 새로운 정책 및 효과를 회사 이해 관계자들에게 설명하고 시행합니다.

■ 관리자 및 팀 리더

데이터 거버넌스 위원회와 나머지 조직원들 간의 양방향 커뮤니케이션을 돕고 팀 수준에서 새로운 정책을 시행합니다. 특히 관리자는 데이터 거버넌스 정책이 본인의 팀과 어떤 관련이 있는지 알아야 하며 정책으로 인해 팀의 업무가 더 복잡해지는 경우에는 데이터 거버넌스 위원회와 의사소통해야 합니다.

■ 데이터 사용자

새로운 정책을 적극적으로 따라야 하며 관리자와 마찬가지로 자신의 요구사항을 데이터 거버넌스 위원회에 전달할 수 있어야 합니다. 특히 업무수행 방식을 바꾸는 경우 조직원들의 요구사항은 데이터 보안 다음으로 데이터 거버넌스 위원회의 최우선 순위가 되어야 합니다.

최고경영진 데이터 거버넌스 위원회(DGC, DG Council) 관리자 및 팀 리더 데이터 사용자 Tactical Level Data steward coordinators (dsc) , data domain steward(dds) operational level Data stewards로 구분

데이터 거버넌스의 R&R 운영 모델 (출처: Robert S. Seiner, KIK Consulting)

마치며

여전히 많은 기업이 중요한 의사결정을 경영진의 직감에 의존하고 있습니다. 규모가 큰 회사일수록, 전통 산업에 가까울수록 이러한 경향은 더 강하게 나타납니다. 데이터가 경쟁우위를 점하기 위한 핵심 자산이 되는 시대, 데이터 기반 경영은 더 이상 낯선 말이 아닙니다. 현업 실무자부터 최고 경영진에 이르기까지 기업 전체가 신속, 정확한 의사결정 체계를 갖추기 위해서는 조직 내에 데이터를 책임지는 임원(CDO)과 부서를 신설하고 데이터 거버넌스 프레임워크와 담당 조직 간 R&R을 정립하여 운영하는 것이 필히 뒷받침되어야 할 것입니다.

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.

▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

빅데이터 거버넌스(Data Governance)의 정의 및 목적, 그리고 고려사항(및 도구)들

반응형

데이터 팀에서 데이터를 다루다보면, 데이터와 관련된 다양한 이해관계자들(데이터 분석가, 데이터 사이언티스트, 기획자, BI 개발자 등) 사이에서 기술적인 것 외에도 ‘데이터 접근 관리’, ‘개인정보 데이터 관리’, ‘데이터 품질’ 등의 경영이나 문과적(?)인 사항들이 자주 이슈화되는 부분을 경험할 수 있습니다. 이러한 부분이 잘 관리되지 않았을 때, 많은 비용으로 발생하고 업무 시에 많은 시간을 탕진하게 하기도 합니다.

저 개인적으로도 데이터플랫폼팀의 ‘데이터 거버넌스 파트’의 일원으로 ‘데이터 분석팀’, ‘추천팀’, ‘BI팀’, ‘DB개발팀’의 팀 단위의 이해관계자들 사이에서 (기존 데이터 이해관계자가 대부분 한 팀에 뭉쳐있던 구조와 달라) 팀 단위의 커뮤니케이션으로 인해 잦은 병목이 발생하는 상황을 경험하였는데요.

그러한 문제들은 흔히 ‘데이터 거버넌스’라는 명칭으로 광범위하게 정의되었으나, 정확히 어떤 부분들이 존재하고 관리해야하는지 알기 어렵고, 실무를 바라볼 때 의미있을 정도의 문서를 찾기가 쉽지 않았습니다.

이 글에서는 위의 문제를 해결하기 위해 ‘데이터 거버넌스’에 대한 정의와 목적을 알아보고, 목적을 이루기 위한 고려사항들을 전달하려 합니다.

글에서 말하는 거버넌스의 범위

먼저 범위(scope)을 살펴보면, DG는 크게 매크로(Macro) 및 마이크(Micro)로 레벨 2가지로 구분됩니다: 전자는 국제관계와 인터넷 거버넌스의 정치적 개념이나 규정을 의미하고 후자는 기업 거버넌스에서의 경영 개념이나 규정을 의미합니다 [1].

또한, DG의 실행을 어떠한 도구의 도입 또는 팀의 형성으로 보는 부류도 있지만 [2], [3]에서는 DG는 무언가를 축적해가는 작업이 아니며, DG를 담당하는 거대한 팀이 있어야 하는 것이 아니라 모든 부서에서 업무 프로세스 문화처럼 자리 잡아야 한다고 말합니다.

아래와 같은 범위와 관점으로 글을 기술하였습니다:

범위: 기업 거버넌스 의에서의 경영 개념이나 규정

의에서의 경영 개념이나 규정 중점: 개별 기업의 데이터 관리와 그것을 통해 최종적으로 데이터 라이프사이클 전체 과정에서 높은 데이터 품질을 보장하기 위한 활동

목적: ‘데이터 신뢰성’을 제공하는 것 [4]

실행: 도구의 도입 및 업무 프로세스 문화 모두 포함하여 ‘데이터 신뢰성’ 개선을 이루는 모든 활동

그렇기에, 아래 글에서 언급되는 DG는 모두 위의 범위와 관점에 한정되어 전개되었습니다.

정의와 목적

DG는 새롭게 탄생한 개념이 아니라, 데이터 분석이 그렇듯, 기업정보관리(Enterprise Information Management)와 같은 기업 경영에 있어 오랜 역사를 가지고 있는 개념에 뿌리를 두고 있습니다 [1]. 그렇기에 자칫 그 개념이 ‘관리’에 포함되는 많은 것과 혼용되거나, 기술적인 부분과 섞이는 경우가 흔합니다. 시중에 있는 많은 정의들 중에서, 아래에서는 다음과 같은 정의를 사용합니다:

Data governance is to provide trust to data. [4]

Data governance is the organization and implementation of policies, procedures, structure, roles, and responsibilities which outline and enforce rules of engagement, decision rights, and accountabilities for the effective management of information assets.

먼저, DG는 ‘데이터를 신뢰’할 수 있도록 개선해가는 활동입니다. 그렇기에 정의 자체에 ‘데이터 신뢰성(trust to data)’를 제공한다는 목적이 포함되어 있습니다.

두 번째의 긴 정의를 살펴보면 정책, 절차, 역할, 책임 등을 조직하고 실행해나가는 활동으로 의사결정, 책임 등의 규정을 적용하여 효율적인 ‘정보자산’ 관리를 위한다고 기술되어 있습니다.

(인용한) 2가지 정의가 얼핏 차이가 있어보이나, 그 하위 목적에 유사한 것들로 이뤄져 있습니다. 이 글에서는 [4]에서 언급된 Discoverability, Security, Accountability 3가지로 구분하였습니다:

Discoverability(또는 Transparency): 데이터는 효율적으로 ‘발견 가능’하고 투명해야 합니다. 좀 더 구체적인 사항들로는 Metadata 제공, Data Lineage, Global Glossary, Data Quality 등이 해당됩니다. 과거의 DG는 아래의 Security와 Accountability에 초점이 많이 맞춰졌다면, 점점 ‘데이터 상품’이 고도화되면서 이 부분에 있어 많이 요구되고 발전해나가고 있습니다

Security: 보안은 크게 2가지로 구성되어 있습니다. ‘개인정보(Personal Information)가 GDPR 등의 규정에 맞게 구분되어 관리되는가(Privacy)?’라는 부분과 ‘데이터 접근이 권한에 따라 적절히 관리되는가?’라는 2가지 부분인데요. 2번째 항목이 기존의 대부분에 시스템에도 적용되며 일관된 반면에, 전자는 데이터 관련 법률이 많이 추가되고 변경되는 상황이 발생하며 조금 유동적인 특징을 가집니다.

위 2가지 사항에 해당되는 공통되며 중요한 부분은 ‘데이터의 분류(Classification)’와 그에 따른 ‘접근권한관리(Access Control)’를 다루는 Policy의 존재여부입니다(기술적으로 예를 들자면 Apache Ranger에서 그 개념을 잘 구현해두고 있습니다).

Accountability: 위 2가지 사항들을 Accountable하도록 하는 일련의 활동들을 포함하는 활동으로 Data Life Cycle Management, Data Acquisition 프로세스 정립(또는 도구의 도입), User-Policy-Resource 간의 시스템 도입, Audit 등과 같은 사항들이 해당됩니다.

업무 프로세스, 업무문화, 도구의 도입 등 다양한 범위와 개념이 혼합된 DG는 실제로 실무에서 지속가능한 수준까지 확립되기 위해서는 정말 많은 노력이 필요합니다. 하지만, 데이터 사이즈도 점차 커지며, 기업 내 운영용 또는 판매용 등등 다양한 종류의 데이터가 생기고, 다양한 데이터 관련 이해관계자 직군이 탄생하면서 점차 이러한 DG에 대한 필요성이 커지고 있습니다. 또한, 여러 벤더사가 모인 ODPi(Open Data Platform initiative)와 같은 조직에서 거버넌스에 대한 standard를 만들어가려는 노력도 보입니다.

아래에서는 위에서 나열한 3가지의 상세사항들 중 중점적인 사항들을 기술적인 내용과 더불어 살펴보도록 하겠습니다.

728×90

고려사항들

위에서 전달한 것과 같이, DG에는 기술과 기술 외적인 부분도 결합되어 체계화를 많이 시도했으나 아직까지도 발전해가고 있기에 명쾌하게 정리되지 않은 것 같습니다. Defense(보안, 무결성, 정규화, 접근권한관리 등)와 Offense(분석 최적화, MVOTs(Multiple Versions of Truth) 등)의 이분법적인 관점으로 전달한 HBR 케이스, 3가지 구분(구조적, 운영적, 관계적)으로 관점을 제시한 케이스 [5] 등이 존재하지만, 이 섹션에서는 위의 3가지(Discoverability, Security, Accountability) 관점의 순서로 상세항목은 기술하나 3가지 구분도 아직 명확하지는 않기에 index 형태로 넣지는 않고 나열식으로 적어보았습니다.

Metadata Management

“Information about information”으로 일컬어지는 메타데이터에 대한 관리는 ‘권한이 있는 사용자가 필요한 데이터를 효율적으로 찾고 탐색하고 접근할 수 있도록’하도록 돕습니다. 그러한 형태의 기본적인 예시가 ‘Data Catalog’라고 불리는 데이터의 위치, 스키마 등을 포함하는 인덱스에 해당되는 서비스입니다(AWS Glue Catalog, Google Bigquery, Hive Data Units, Talend Catalog, Informatica).

Apache Hive의 카탈로그의 역할 부분을 대체하며 다른 기능과 함께 통합된 거버넌스 도구로 등장한 Apache Atlas의 특징을 살펴보면, 유연한 설계로 하둡 외의 메타데이터도 지원하며 데이터 타입도 custom 가능한 부분과 UI 제공 등 다양한 거버넌스 기능이 추가된 것을 확인할 수 있습니다. 또한, Lyft의 Amundsen도 스키마 검색 및 페이지 랭킹 기능, 하둡 외의 확장성, Workflow Management 도구와의 연동 등을 추가하며 탐색(discovery)과 각종 이해관계자(데이터 사이언티스트, 데이터 엔지니어, 분석가 등)의 협업 효율화를 강조했음을 알 수 있습니다. Dataframe도 통합된 Data Discovery & Observability를 목적으로 카탈로그에 더한 Data Quality 등의 부분을 더해가는 추세로 보입니다.

위에서 전달드린 기본적 Catalog 외의 고려할 기능들을 나열하자면:

Data Lineage: Apache Atlas, Amundsen 등 많은 데이터 거버닝을 목적으로 탄생되는 도구들은 대부분 가지고 있는 기능으로, 데이터가 어떤 소스로부터 생성되었는지를 나타내주는 기능입니다. 한눈에 어떤 데이터가 어느 소스를 사용하여 생성되었는지 알 수 있을 뿐만 아니라, 데이터의 오염이 발생했을 때 빠르게 원인을 찾거나(Netflix) 데이터의 사용여부, 데이터 의존관계 등을 파악하는 데에도 큰 역할을 합니다. 어떻게 가공되는지 시스템에서 파악할 수 있어야하기 때문에, 이 부분에서 데이터 거버넌스에 Workflow Management 도구가 포함되거나 연동되는 경우가 많습니다. 예로, Amundsen의 경우 Apache Airflow의 어떤 작업이 해당 테이블을 생성하는지 연동하는 기능이 존재합니다.

Data Lineage – Image from EWSolutions

Glossary: 각종 용어에 대한 정의가 Catalog의 코멘트에 기록되기도, 추가적인 시스템에 따로 기록되기도 합니다. 대표적인 Glossary 기능을 강조하는 거버넌스 도구로 Collibra를 볼 수 있습니다. Clickstream 수집을 위한 ‘로그정의서’ 같은 경우도 많은 용어의 정의가 필요한데, 이러한 서비스들도 통합적인 거버닝 요구가 커지면서 합쳐지는 양상을 보이는 것 같습니다.

Business Glossary in Governing UI – Image from Collibra

Data Quality [6, 7]: 개인적으로 볼 때, 데이터 퀄리티는 1) 초반에 데이터 수집이 시작되거나, 2) 다루는 데이터가 커지고 복잡해지며 파악이 점점 어려워져 갈 때 많이 이슈화 되는 것 같습니다. 많은 자료조사에서도 데이터 품질이 데이터 상품의 성공을 가르는 중요한 요인 중 하나라고 꼽습니다. AWS Deequ, Apache Griffin, GreatExpectations 등의 DQ 관련 오픈소스도 많이 사용되고 위에서 언급된 바와 같이 Catalog Web UI에 데이터 Profile이 기본적인 기능으로 더해지며 Validation(또는 Check) 등도 점점 시스템으로 편입되어 가고 있는 것 같습니다.

Data Sentinel – Image from LinkedIn Blog

Data Classification and Access Control with Policies

데이터는 잘 구조화 되어 있어야 합니다. 함께 다룰 ‘접근권한관리’ 및 ‘개인정보보호’ 차원에서도 그렇지만 데이터 종류가 다양해지고(운영용, 판매용, 교환용 등) 다양한 데이터 사용자 직군이 효율적이고 편리하게 이용할 수 있도록 하기 위해서도 필요합니다(예로 Databricks의 Bronze, Silver, Gold Tiering).

Data Lake – Image from Databricks

크게 분류할 수 있는 몇 가지 주요 차원을 나열하면:

개인정보여부: 구현체로는 Google Cloud Data Loss Prevention 또는 AWS Macie 같이 서비스로 제공되는 형태도 있고 일부 오픈소스도 진행되고 있는 것으로 보입니다. 기업의 규모가 커지며 정보보안팀과 같은 역할이 생기고, 개인정보 데이터 관리는 가장 중요하고 필수적인 것이 됩니다. 보통 개인정보컬럼을 아예 분리하거나, 개인정보컬럼을 가진 테이블에 대한 접근권한을 관리하거나(컬럼 레벨 관리가 된다면 컬럼레벨), 개인정보컬럼을 암호화하여 사용하거나하여 관리를 하게 됩니다. Data Lifecycle과 관련이 깊게 일정 기간이상 보관이 불가능하게 되는 경우도 있습니다.

가공의 정도(또는 정련도): 위 예시와 같이 Bronze, Silver, Gold로 나누어 어떤 그룹은 어떤 정도로 가공되고 완성도가 높은지 나누고 사용할 때의 우선순위, 목적부합성 등에 대한 standard를 제시할 수 있습니다.

데이터의 용도: 데이터는 내부적으로 사용되기도, 외부 데이터와 교환목적으로 송신되기도, 거래용으로 업로드되기도 합니다. 그에 따라, 데이터 그룹을 나누고 추후 Policy와 연동하여 권한을 관리하거나, Data Lifecycle 적용 시 일정한 디폴트 조건을 적용할 수 있습니다.

위의 ‘데이터 분류화’는 유저 또는 그룹과 ‘Policy’를 통해 연결됩니다. Policy는 어떤 주체(유저 또는 그룹)가 어떤 Resource(데이터 그룹) 에 어떠한 형태(읽기, 쓰기 등)로 접근할 수 있는지 나타냅니다(Apache Ranger의 개념 차용). AWS IAM(데이터 접근과 관련), Apache Ranger의 개념들을 참고하시면 실무에 적용할 수 있을 정도의 기반을 배우실 수 있으실 듯 합니다.

Data Lifecycle Management(DLM) and Data Procedure

데이터는 생명체와 같이 새로 생성되고, 활동적으로 쓰이고, 점점 쓰임새가 줄어들다가 필요없어지게 되는 라이프사이클을 갖습니다. 데이터 환경은 수많은 데이터가 변화에 따라 라이프사이클의 단계가 변하게 됩니다.

Data Lifecycle Management – Image from Asia Data Destruction

데이터의 라이프사이클에서 어떠한 단계로 데이터의 상태를 나눌지, 그리고 그 상태별로 어떻게 관리할지는 데이터 운영자와 데이터 사용자들 간의 구체적인 협의를 통해서 정해집니다. 이 부분에서 데이터 운영자 – 데이터 사용자 간의 업무수행 절차를 말하는 Data Procedure 측면이 가까워지게 됩니다. 상황에 따라 다르겠으나 라이프사이클을 대략적으로 기술하자면 다음과 같습니다:

사전

요청: 사용자의 필요에 따라 데이터 수집 또는 생성이 요청되고 반영되는 단계입니다.

검토 및 테스트: 사용자의 요청이 적절한지 검토하고(권한, 개인정보여부, 보관주기 등) 수집을 위해 테스트를 해보는 단계입니다.

운영

데이터 수집 이후의 운영을 하게되면서 요청한 데이터 전체(예, 하나의 Hive 테이블) 또는 부분별(예, Hive 테이블의 날짜별 파티션에 따라 다른 단계)로 사용 및 필요에 따라 단계가 결정됩니다.

Active: 수집된 데이터가 활발하게 사용되는 단계입니다. 다른 가공을 거치지 못하고 접근하여 raw 형태이거나, 활발하게 접근하기에 최적화한 Parquet, ORC 등의 형태일 수 있습니다. 또한, latency를 위해 데이터가 조금 크더라도 압축율을 조금 손해봐도 좋을 단계입니다.

Archive: 데이터에 대한 접근 및 사용이 뜸해지면서 archive되는 단계입니다. S3보다 싸면서 접근 속도가 매우 느린 AWS Glacier를 사용하거나, HDFS에서 Erasure Coding을 적용하거나, 자주 접근되지 않기에 높은 압축율을 적용한 파일로 변형하여 보관할 수 있습니다.

Deprecated: 데이터가 더이상 사용되지 않거나, 보관주기(데이터 이해관계자 간의 합의를 통해 정하거나 개인정보데이터의 경우 일정 기간 보관만이 가능하여 적용되는)가 지난 폐기되는 단계의 데이터입니다.

이러한 데이터 라이프사이클에서 중요한 2가지 사항은 1) 자동화 와 2) 데이터 뿐만이 아닌 메타데이터, 데이터 수집 작업 또는 가공 작업 등 또한 라이프사이클 관점에서 관리하기 입니다.

데이터 라이프사이클(함께 고려될 데이터 프로시져)은 처음엔 수작업을 동반할지 몰라도, 고도화되면서 점진적으로 자동화되어야 합니다. 많은 사용자의 요청과 복잡한 데이터를 일일히 검토할 수 없기에(실수도 있을 수 있기에) 기본적인 사항부터 단계별(아래의 자율주행차가 도도화 되듯이)로 자동화를 계획하고 설계되어야 합니다.

Different levels of automation in a self-driving car – Image from ‘The Self-Service Data Roadmap’

두 번째로, 데이터만이 아닌 데이터와 연관되는 모든 리소스들의 라이프사이클이 관리되어야 합니다.

개인적인 경험을 전달드리면, 처음 11번가의 데이터 플랫폼에 입사했을 때 마주한 것은 사용하지 않는 1000개가 넘는 Hive 데이터베이스와 100,000개가 넘는 Hive 테이블이었습니다. 수동으로 수많은 리소스를 정리하는 작업은 시스템 부하, 사용여부 파악 등 어려운 점이 많았습니다.

그렇기에 데이터 시스템이 고도화되는 시점에는 선제적으로 라이프사이클과 업무 프로시져를 정해서 깨끗하고 건강한 문화와 시스템을 만드는 것이 매우 중요하다는 사실을 절실하게 느꼈습니다.

데이터 업무 프로세스는 위에서와 같이 라이프사이클과 관련이 깊으면서, 또 팀 간 RNR, 팀 간의 업무 진행 시 Input과 Output 정하기, 역할 등 넓은 주제가 포함되기도 합니다. 데이터 생성 및 소비 측면의 환경은 이 글에서 자세히 전달드렸고, 이곳에서 데이터 라이프사이클과 관련해서 강조할 부분은 업무 진행에도 interface와 같이 input과 output을 명시하고 어떤 기능이 있고 어떻게 사용할 수 있는지에 대한 명확한 가이드가 제시되어야 한다는 사실입니다.

마치며…

데이터 환경에서 데이터 상품을 만들기 위해 데이터를 찾고, 수집하고, 정제하고, 관리하는 데에 많은 비용이 들어갑니다 [7]. 빅데이터가 존재하기 이전부터 기업 경영에 있어 ‘정보관리’라는 개념이 존재하였고, IT 환경에서 데이터 환경이 커지고 복잡해지면서 도구가 발달하고 데이터 상품(분석, ML 등)이 다양해지면서 통합적인 거버넌스를 ‘잘하는’ 부분에 대한 관심이 점점 커져가는 듯 합니다.

추후에는 이러한 도구 뿐만 아니라, 이 부분을 중점적으로 담당하는 직무가 생겨 점차 전문화되어 갈지도 모르겠습니다.

Reference

[1] en.wikipedia.org/wiki/Data_governance

[2] ciowatercooler.co.uk/resources/DataGovernanceSurvey2017.pdf

[3] www.google.com/books/edition/Data_Governance/CpeAYWaTScYC?hl=en

[4] learning.oreilly.com/library/view/data-governance-the/9781492063483/

[5] www.researchgate.net/publication/260584434_Corporate_Governance_of_Big_Data_Perspectives_on_Value_Risk_and_Cost

[6] web.mit.edu/tdqm/www/winter/StrongLeeWangCACMMay97.pdf

[7] engineering.linkedin.com/blog/2020/data-sentinel-automating-data-validation

[8] medium.com/selectstar/the-evolution-of-data-catalogs-the-data-discovery-platform-1627772ca760

[9] https://info.algorithmia.com/ml-governance-framework

반응형

키워드에 대한 정보 데이터 거버넌스

다음은 Bing에서 데이터 거버넌스 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자

  • 데이터
  • 데이터관리
  • 데이터거버넌스
  • 데이터경제
  • 디지털
  • 디지털트랜스포메이션
  • 디지털전환
  • 디지털탈바꿈
  • IT
  • 데이터아키텍처
  • 데이터모델링
  • 데이터보안
  • 마스터데이터
  • 데이터웨어하우징
  • 메타데이터관리
  • 데이터품질

차이점이 #분명한 #데이터 #관리와 #데이터 #거버넌스, #정확한 #개념으로 #확실하게 #정리하자


YouTube에서 데이터 거버넌스 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 차이점이 분명한 데이터 관리와 데이터 거버넌스, 정확한 개념으로 확실하게 정리하자 | 데이터 거버넌스, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment