데이터 아키텍처 영역에서, 데이터 품질은 실제 데이터 값 자체가 그 대상으로 데이이 품질관리 체계에서 가장 기본이 되는 관리요소이다.
일반적인 데이터 품질관리 프레임워크에서는 데이터 값에 대한 관점별 관리요소를 다음과 같이 제시하고 있다.
이번 포스팅에서는 데이터 값 자체에 대한 품질을 어떤 식으로 평가하고 인증하는지에 대해 기술하며, 그 기준은 한국데이터베이스진흥원의 DQC-V 심사를 기반으로 한다.
DQC-V(Data Quality Certification-Value)
한국데이터베이스진흥원에서 주관하는, 3가지 데이터 관련 인증분야(데이터인증/데이터관리인증/데이터보안인증) 중 데이터 값에 대한 인증영역으로, 그 정의는 다음과 같다.
여기서 도메인과 업무규칙이란 데이터품질을 평가하는 주요관점으로, 비즈니스 상 요구되는 데이터가 정확한 값과 범위로 일관되게 저장/관리되고 있는지를 평가하기 위한 심사항목이 된다.
두 영역에 대한 세부 심사항목과 내용은 다음과 같다 (http://www.dqc.or.kr/certi/files/DQCV_check.pdf)
도메인은 숫자/코드/ 분류와 같은 것으로, 도메인 기반 데이터 품질진단은 조직에서 사전 정의한 데이터 값과 타입, 길이, 초기값 등에 맞춰 데이터가 저장되어 있는지에를 심사하게 되며, 비교적 객관적이고 공정하게 평가할 수 있는 기술적 평가 영역이라 하겠다.
반면,
업무규칙은 실제 비즈니스에 필요한 규칙을 대상으로 하기에 조직의 특성에 따라 그 기준이 서로 상이할 수 있고 복잡하기도 해서, 도메인 기반 품질진단에 비해 심사하기가 쉽지 않은 영역이기도 하다.
데이터 품질진단 접근방식
데이터 품질진단은 크게 다음과 같이 두 가지 방법으로 접근할 수 있다.
1) Inside-Out
- 데이터베이스 그 자체로부터 문제를 발견해 나가는 방식.
- 해당 기업의 비지니스 지식이 부족해도 가능한 '기술적 분석'에 해당.
- Profiling 기법과 Data Rule을 통한 Auditing 두 가지 접근 방식이 있음
2) Outside-In
- 정보시스템 내부사용자와 외부고객의 이슈로부터 데이터 품질을 접근하는 방식
- 주로 고객센터에서 접수된 SR과 내부에서 요청되는 iSR 분석을 통해 이슈를 도출함
데이터 품질진단 실무
이제 실제 데이터 품질을 진단하기 위한 실무적 방법에 대해 알아본다. 앞서 도메인과 업무규칙을 심사영역으로 품질진단이 진행되는데 이 중 도메인 분석을 위해 데이터 프로파일링기법이 사용된다.
- 기존 데이터 원본에서 사용할 수 있는 데이터를 검사하고 해당 데이터에 대한 정보 및 통계 데이터를 수집하는 과정을 의미함
- 데이터의 구조, 내용, 관계, 데이터의 파생규칙을 명확히 하고자 수행
- 최소, 최대, 평균, 백분위, 표준편차, 빈도 및 변화뿐만 아니라 수와 금액 등의 집계
- 데이터 유형, 길이, 개별 값, 유일성, null값 존재, 일반적인 문자열 패턴 및 추상형식 인식
1. 도메인 기반 데이터 품질진단
- 데이터 프로파일링 기법으로 도메인을 분석을 수행하여 컬럼에 대한 분류를 수행하고 메타 시스템에 정의된 내역이 존재할 경우 해당 내역을 연계해야 한다. 도메인 분석에서의 분석 대상은 다음과 같이 세분화 할 수 있다.
대체로 컬럼분석/날짜분석/패턴분석은 단일컬럼의 값이 그 대상이며, 코드분석/참조무결성분석은 테이블간 관계를 고려한 분석을 수행하게 된다.
컬럼분석은 대표적으로 해당 컬럼에 저장된 값에 대해 Min/Max 값분석, Min/Max길이분석, 빈도(Count)분석, Null/Space분석을 수행하며,날짜분석은 날짜의 범위분석, 날짜포맷부석, 날짜초기값 분석 등을 주로 수행한다
패턴분석은 정형패턴분석과 비정형패턴분석으로 나뉘는데, 정형패턴분석은 주민번호나 사업자번호, 여권번호등 그 패턴이 이미 정해진 패턴 유효성을 검사하며 비정형패턴분석은 기업 내부 규약에 따른 문자체계, 번호체계를 기준으로 준수여부를 심사하게된다.
코드분석은 단일코드분석과 복합코드분석, 목록형코드 분석으로 나누며 코드의 값이 코드테이블의 규칙을 준수하고 일관성을 유지하는지를 평가하게 된다.
참조무결성분석은 말 그대로 부모-자식 테이블간 관계 정합성을 검증하게 된다. 보통 DBMS상에 참조 제약사항이 명시적으로 걸려 있으면 참조무결성이 잘 유지되며 이럴경우 품질진단에서도 결함이 거의 나오지 않는다.
2. 업무규칙 기반 데이터 품질진단
- 공공정보 품질관리 매뉴얼에 따르면 업무규칙을 다음과 같이 정의하고 있다
- 데이터 사용자가 요구하는 수준을 만족시키기 위하여 업무적으로 규정된 기준에 맞도록 데이터 값을 관리하기 위한 조건에 대한 일반적인 표현
즉 업무규칙 기반 데이터 품질진단은, 비지니스 상 사전에 규정된 기준에 맞도록 데이터가 저장/관리되는 가를 진단하는 것이다. 따라서 품질진단을 하기 전에 업규칙을 먼저 명확히 하는 것이 매우 중요하다.
DQC-V에서는 업무규칙의 유형 분류의 예를 다음과 같이 제시하고 있다.
업무규칙은 크게 세 가지 대상으로부터 도출이 가능한데,
그 첫번재는 앞서 살펴봤던 데이터 프로파일링 결과로 부터 업무규칙을 도출하는 것이다. 프로파일링을 수행해서 오류로 판명된 결과들 중에서 영향가 있는 것, 즉 중요테이블에 적용되는 항목들대해 업무규칙화가 가능하다.
다음으로 해당 비즈니스를 수행하는 조직의 담당자와의 인터뷰나 설문 SR, iSR, VOC와 같은 것으로도 도출이 가능할 것이다. 마지막으로 해당 비즈니스에 적용되는 법령이나 규정, 지침등으로 부터 업무규칙을 하향식으로 도출이 가능하다.
이때 중요한 것은 물리적인 진단이 가능한 테이블, 컬럼단위로 업무규칙을 도출해야 하며, 가장 작은 단위의 업무규칙으로 원자화하여 작성하는 것이 좋다
전사 데이터 품질관리 참조모델
마지막으로 데이터 품질관리에 대한 Best Practices로 메타 데이터, 품질, 영향도 분석을 포함하는 참조 아키텍처이다. 전사 데이터 품질관리 체계를 구축하기 위해서는 이와같은 아키텍처를 기반으로 다음과 같은 세부 활동이 필요하다
- 전사 데이터 표준화 및 품질 관리 체계 수립
- 데이터 표준화 및 메타데이터 관리 시스템 구축
- 데이터 품질 관리 시스템 구축
- 애플리케이션 영향도 분석 시스템 구축
* 참고자료 출처
- 한국데이터베이스진흥원, DQC-V 심사원 연수자료
'일상' 카테고리의 다른 글
2016년 CEO 팀 표창 (6) | 2017.01.04 |
---|---|
자격증에 관하여... (4) | 2016.12.09 |
ISMS 인증심사원 자격취득 (6) | 2016.10.29 |
KPC 72회 기술사 모의고사 (6) | 2016.10.28 |
KPC 공개설명회 (6) | 2016.10.09 |