DataHUB
Dijital dünyada Veri her şeydir. İşletmeler karar vermek, eğilimleri anlamak ve performansı değerlendirmek için verilere güvenir. Veriler, işletmelerin işleyişinde giderek daha merkezi hale geldikçe, veri kalitesinin önemi de artıyor. Veri kalitesi, verilerin doğruluğunu, eksiksizliğini, güncelliğini ve tutarlılığını ifade eder. Başka bir deyişle, verilerin temiz, doğru ve güncel olduğundan emin olmakla ilgilidir. Veriler güvenilir değilse, o verilere dayanan herhangi bir içgörü veya karar da güvenilmez olacaktır.
Kötü veri kalitesi, yanlış analizlere ve yanlış karar almaya yol açarak iş performansını olumsuz etkileyebilir. Bu nedenle veri kalitesi çok önemlidir - sağlam iş kararları almak için gereklidir. Veri kalitesi, veri yönetişiminin temel bileşenlerinden biridir. Veri yönetişimi, yaşam döngüsü boyunca verileri yönetmek için bir çerçevedir. Verilerin alınması, saklanması, kullanılması ve imha edilmesi için süreçleri ve prosedürleri içerir.
Veri kalitesinde aranan temel özellikleri aşağıdaki gibidir;
Verinin kullanıcı gereksinimlerini karşılama derecesi olarak tanımlanabilir. Örneğin, bir ürünün satışını ölçüyorsanız, verilerin o ürünün ne kadarının satıldığını doğru bir şekilde yansıtması gerekir. Veri doğruluğunda dikkat edilmesi gereken bazı hususlar;
Veri Doğruluğu (Data Accuracy)
Yanlış veri: Gerçeği yansıtmayan veridir. Örneğin, harcama verileri farklı bir harcama kategorisi ile yanlış bir şekilde ilişkilendirilirse hatalı bir analiz yapılmasına neden olur.
Yinelenen veri: Veri kümesinde birden fazla görünen kayıtlardır. Örneğin, aynı müşteri için iki farklı kayda sahip müşteri kaydınız varsa, bu yinelenen veri olarak kabul edilir.
Eksik veri: Veri setinde bulunması gereken ancak olmayan verilerdir.
Güncellik, verilerin mevcut durumu yansıtma derecesi olarak tanımlanabilir. Örneğin, satılan ürün sayısını ölçüyorsanız, geçen yılın verileri güncel veriler olarak kabul edilmeyecektir.
Veri Güncelliği (Data Timeliness)
Eski veri: Geçmiş bir zaman dilimini yansıttığı için artık doğru olmayan verilerdir. Örneğin, geçen aya ait veriler eski veriler olarak kabul edilir.
İstenen tüm bilgilerin bir veri kümesinde bulunma derecesi olarak tanımlanabilir. Veri bütünlüğünde genellikle bu beş sorunun cevabı aranır; Kim, ne, ne zaman, nerede ve neden.
Veri Bütünlüğü (Data Copleteness)
Eksik veri: Bilgileri eksik olan verilerdir. Örneğin, yalnızca kısmi müşteri verileriniz varsa, bu eksik veri olarak kabul edilir.
Alakasız veri: Sorulan soruyla ilgili olmayan verilerdir. Örneğin, satılan ürün sayısını ölçüyorsanız, şirketteki çalışan sayısına ilişkin veriler alakasız veriler olarak kabul edilir.
Veri tutarlılığı, verilerin farklı veri kümelerinde aynı olma derecesi olarak tanımlanabilir. Örneğin, iki farklı kaynaktan müşteri verileriniz varsa ve veriler tutarsızsa (ör. bir kaynağın e-posta adresi varken diğerinin yok), bu durumda tutarsız veri olarak kabul edilir.
Veri bütünlüğü (Data Integrity)
Veri bütünlüğü, verinin orijinal durumundan değiştirilmemiş olma derecesi olarak tanımlanabilir. Örneğin, müşteri verileriniz varsa ve birisi veriyi değiştirmişse (örn. e-posta adresini değiştirmişse), bu bir veri bütünlüğü sorunu olarak değerlendirilir.
Veri Tutarlılığı (Data Consistency)
Farklı veri formatları: İstenen formattan farklı bir şekilde formatlanan verilerdir. Örneğin, bir metin dosyasında müşteri verileriniz varsa ancak bunun bir CSV dosyasında olmasını istiyorsanız, bu veriler farklı bir biçimde kabul edilir.
Yapılandırılmış ve yapılandırılmamış veri: Belirli bir şekilde düzenlenmiş (örneğin bir tabloda) veya hiç düzenlenmemiş verilerdir. Örneğin, metin verileri yapılandırılmamış veriler olarak kabul edilirken, bir CSV dosyasındaki veriler yapılandırılmış veri olarak kabul edilir.