sbm-bilgi-6

Veri kalitesi, bir veri deposunda biriken veri parçalarının

veya kümelerinin doğruluk derecesini, standartlara

uygunluğunu, tekilleştirilebilirliğini, bütünlüğünü, veriler

arasındaki ilişkilerin doğru tanımlanma seviyesini ifade

eden kavramdır. Hatalı üretime açık veri girişleri, veriyi

toplarken yazılım kontrol noktalarının eksik veya yanlış

kodlanması, veriler arasındaki ilişkilerin hatalı veya

eksik olarak tanımlanması ve kurulması, modellerin

gerçeğe aykırı olarak kurgulanması veri kalitesizliğinin

temel sebeplerindendir. Yasal kısıtlar veya operasyonel

süreçlerdeki zorunlu kabuller de veri kalitesizliğine yol açan

önemli etkenlerdendir.

Kurumlarda veri kalitesi ölçümü için kullanılan başlıca

yöntemlerden biri olan profilleme, veri yapılarındaki her

kolon ve tablo için boşluk/doluluk, default değer, kopya

veri ve desen frekans analizleri ile yapılan bir resimleme

çalışmasıdır. Örneğin, adres kolonun %80 boş olması, araç

plaka verisindeki farklı desenler vb. gibi.

Basit İstatistikler

Simple Statistics

• Boş Sayısı

/ Number of empty cells

• Default Değer Sayısı

/ Number of Default values

• Distinct Sayısı

/ Number of Distinct values

• Duplicate Sayısı

/ Number of Duplicate values

• Null Sayısı

/ Number of Null values

• Toplam Satır Sayısı

/ Total number of rows

• Unique Sayısı

/ Number of Unique values

• Desen Frekans Analizi (Yüksek-Düşük)

/ Design

Frequency Analysis (High-Low)

• Desen low frequency table

/ Design low frequency

table

• Tarih desenleri

/ History data design

İş kurallarının oluşturulması ve incelenmesi bir başka veri

kalitesi araştırma yöntemidir. İncelenen her bir kolon için

o kolonda tutulacak verinin hangi iş kurallarına dayanması

gerektiği çıkarılır. Örneğin şasi alanının otomobil araç

grubunda 17 karakter olması, plaka kodunun ilk üç

karakterinin numerik olması vb. gibi.

Veri kalitesi çalışmalarında mantıksal ilişkilerin denetimi de

Data quality describes the level of accuracy, compatibility

with standards, singularisability, integrity of data pieces or

clusters collected in a data warehouse as well as the level

of accuracy of the description of relations between data.

Among the major reasons of low-quality data are data entry

vulnerable to incorrect production, incorrect or missing

coding of software check points during the process of data

collection, incorrect or missing definition or configuration

of relations between data, and unrealistic configuration of

models. Legal limitations and mandatory acceptances in

operational processes are other important factors that cause

low data quality.

Profiling, which is one of the major tools used for measuring

data quality in organizations, is a RESIMLEME CALISMASI

done using emptiness/fullness analysis for every column and

table in data structures, default value analysis, copy data

analysis and design frequency analysis. For example, the

address column being 80% empty, different designs of vehicle

license plate data etc.

Text İstatistikleri

Text Statistics

• Maksimum Uzunluk

/ Maximum Length

• Minimum Uzunluk

/ Minimum Length

• Ortalama Uzunluk

/ Average Length

Özet İstatistikler

Special Statistics

• Ortalama Değer

/ Average Value

• Median Değeri

/ Median Value

• Aralıklara Göre Dağılım

/ Interval-based distribution

Creation and analysis of work rules is a separate data quality

research method. For every column analyzed, the goal is to

find out which work rules should be taken as basis for the

data to be held in that column. For example, chassis field

in the car group being 17 characters long or the first three

characters of the license plate code being numeric values.

SBM’de Verİ Kalİtesİ Çalışmaları

Data Quality Works at SBM

SBM’DEN

FROM SBM