Data Mart dar bir kullanıcı grubuna hizmet eden, veri ambarı mantıksal modelinin bir dilimidir. Birçok veri alt kümesinin sadece veri ambarındaki tam tablolardan bir veri alt kümesine ihtiyacı vardır. Örneğin, bir veri alt kümesinde sadece satış işlemleri, ürünler ve envanter kayıtları olabilir. Birçok veri alt kümesinde 4,000 yerine sadece 5-20 tablo vardır.
Bir data mart üzerinde yer alan tabloların sayısının veri tabanının büyüklüğü ile bir alakası yoktur. Ana tablolar – olgu tabloları olarak adlandırılır–örneğin bir telekomünikasyon şirketi için çağrı detayı kayıtlarından oluşan 100’lerce terabayt olabilir. Data Mart'ın kendisi büyük olabilir, ancak veri ambarında bulunan tüm verilerin sadece küçük bir kısmı seçilir.
Data Martlar genellikle, verileri ayıklayarak ve bir sonuç tablosunda toplayarak, çoğunlukla detaylı verileri atarak denormalize edilir. Bazı data martlar haftalık veya aylık olarak tamamen yeniden yüklenir; tüm verileri silmek ve yenilemek nispeten kolaydır, böylece raporlar sadece son 30 günlük işlemlere bakar.
Data Martlar ve yıldız şema ayrılmaz bir şekilde bağlantılıdır. Veri satırları ve sıralarını beş elektronik tablo halinde düşünün. Elektronik tabloların dördü, olgu tablosu olarak adlandırılan en büyük tabloyu eşleştiren anahtar alanlar aracılığıyla bağlanır. Düşünün ki olgu tablosunda 50 milyon tane kayıt var ve bu tek bir elektronik tabloya sığmıyor, bu nedenle veri alt kümesi tablolarına kaydediliyorlar. Çoğu veri alt kümesinin bu yıldız şema tasarımında 5-10 tablosu vardır ve yıldız kollarındaki küçük tablolar boyut tabloları olarak adlandırılır.
Boyutlar önemli bilgilerin olduğu küçük tablolardır. Olgu tablosu verilerin büyük bir kısmının, belki de milyarlarca kaydın saklandığı yerdir ve gerçek müşteri adı ve adresi alanlarını almak için müşteri tablosuna bağlanabilir. Bir varyasyonu, kar tanesi şeması, anahtar alanlar ile birbirine bağlanan çoklu olgu tablolarından daha fazlasına sahiptir. Her bir olgu tablosunun dört veya beş boyut tablosu vardır; tablolar ve ilişkiler setinden oluşan bir şema kar tanesine benzemektedir–ancak hala bir veri alt kümesidir.
Data mart ile veri ambarları arasındaki fark, veri tabanının büyüklüğü ile değil de şema karmaşıklığı ile ayrılan, konu alanları ve entegrasyon ile ilgilidir. Bu nedenle, veri ambarı ile ilgili olarak sorulabilecek sorular data mart ile ilgili sorulacak sorulardan 100 kat daha karmaşıktır çünkü tüm veriler veri ambarındadır.
Veri ambarında çok sayıda “yapboz parçası” vardır, entegre edilen tüm tablolar konu alanlarına göre gruplanır. Veri ambarı çok büyük olmak zorunda değildir; sadece beş terabayt saklama alanına sahip olabilir. Veya, yüzlerce terabayt kayıtları olabilir. Bunun bir alternatifi üç büyük tabloyu tek bir data martta saklamaktır.
Veri entegrasyonu için birçok harika araç ve verileri tutmak için birçok harika ilişkisel veri tabanı – ve verilerin analiz edilmesi için düzinelerce mükemmel araç vardır. Neyse ki, verilerin iş istihbaratına (BI) araçlarına taşımak yoğun işgücü gerektirmez ve çok sayıda veri aktarılmaz. Raporlarda veya tablolarda gösterilmek üzere küçük miktarlarda veri BI aracına gönderilir.
Gerçek maliyetler verilerin başka amaçlar için taşınmasında ve dönüştürülmesindedir. Verilerin çıkartılması ve dönüştürülmesi maliyetlidir ve genellikle yavaştır. Entegrasyon aşaması iş ve hesaplama işlemleri açısından yoğundur – fakat alternatifi iş kullanıcılarına kırılmış, eksik veya doğru olmayan verilerin verilmesidir. Açık konuşmak gerekirse, iş kullanıcılarının bir veri ambarı veya data mart'ı terk etmelerini sağlamanın en hızlı yolu onlara kirli ve eksik veri vermektir. Eğer verilere güvenemezlerse, elektronik tablolarına geri dönerler. Bu, bir veri ambarındaki verilerin neden bu kadar değerli olduğunu – ve konu işin gerçek durumuna hakim olma yeteneğine tam olarak sahip olmaya geldiği zaman bir işletme genelinde data martların yaygınlaşmasının neden riskli olduğunu açıklamaktadır.
Data Mart’lar veri ambarlarındaki karmaşıklık ile uğraşmadan daha kolay analiz yapılmasına imkan sunar. Ayrıca data martlar daha hızlı oluşturalabildiği için iş akışlarını hızlandırır ve böylece bilgilere kolayca erişmemizi sağlarlar. Belirli bir konu üzerinde özet veri sağlamayı amaçlayan yapısından dolayı daha hızlı sonuç verir ve kullanıcılara performans ve zaman kazandırır.
Latent Dirichlet Allocation (LDA), büyük miktardaki metin verisi üzerinde gizli konu yapılarının keşfedilmesine olanak tanıyan bir konu modelleme tekniğidir.
Veri ambarı (genellikle DW veya DWH olarak kısaltılır), çeşitli kaynakları entegre edebilen merkezi bir "veri deposudur". Operasyonel sistemlerden ayrı bir ortam sağlar.
Özellikle makine öğrenmesi ve doğal dil işleme (NLP) projelerinde, veriler genellikle sayısal vektörler olarak temsil ediliyor. Bu noktada, geleneksel veritabanları, vektör tabanlı verileri yönetmede yetersiz kalabiliyor. İşte tam bu noktada Vector Database (Vector DB) devreye giriyor.
Sektöründe öncü 120'den fazla şirket ile 200'den fazla başarılı proje geliştirerek Türkiye'nin alanında lider şirketleri ile çalışıyoruz.
Siz de başarılı iş ortaklarımız arasındaki yerinizi alın.
Formu doldurarak çözüm danışmanlarımızın tarafınıza en hızlı şekilde ulaşmasını sağlayın.