‘Data Mesh’ veya Türkçe karşılığı ile ‘Veri Ağı’; Veri ambarınız, veri gölünüz veya veri tabanı kümeleriniz için en hızlı, en verimli, tek bir noktadan erişim ve sorgulama imkanı sağlayan yeni nesil büyük veri mimari anlayışıdır. Büyük veri dünyası için yeni sayılabilecek bu teknoloji sayesinde, veri saklama ortamlarınız Dünya’nın neresinde olursa olsun, kaç farklı tipte veya kaç tane veri kaynağına sahip olduğunuz hiç farketmez ve milyarlarca satırlık yada yüzlerce Terabayt büyüklüğünde veriyi en verimli şekilde sorgulayabilmenizi ve yönetebilmenizi sağlar. Veri ağı diye adlandırdığımız bu tanımın arkasındaki teknoloji; veri ambarı ve veri gölü ortamlarının yaygınlaşması, IoT verilerinin ve dijital ikiz gibi projelerin önem kazanması, her gün daha fazla veri üreten bir toplum haline gelmemiz ve üretilen bu verilerin değerinin günden güne artması ile beraber konsept çok geniş bir çerçeveyi kapsayacak şekilde genişledi ve kontrol edilemez hale gelen veri ortamlarımıza bir üst bakış açısı getirerek büyük verilerimiz devasa hacimlere ulaşsa da esnek bir çözüm sağlamayı vaat ediyor.
Bir başka yaklaşım ile yazılım mühendisliği ekiplerinin monolitik uygulamalardan mikro servis mimarilerine geçişiyle aynı şekilde, veri ağı da birçok yönden mikro servislerin veri platformu versiyonudur!!! Verilerin tüketimini, depolanmasını, dönüştürülmesini ve çıktısını tek bir merkezi veri gölünde işleyen geleneksel monolitik veri altyapılarından farklı olarak, bir veri ağı, dağıtılmış, alana özel veri tüketimini destekler ve bununla birlikte "data-as-a-product" anlayışını konumlandırır.
Yukarıda yer alan bir başka grafik; 2022 yılı için girişimlerin teknoloji başlığı altında yatırım yapmayı planladıkları alanları göstermektedir. Bu başlık altında 'Veri Ağı' teknolojisini içerisinde barındıran Veri Analitiği başlığı %51 artış ile siber güvenlik sonrasında en çok yatırım yapılması planlanan ikinci alan olarak göze çarpmaktadır. Bunun başlıca nedenlerine değinmek gerekirse; Benzersiz verilerin çoğaltılmış yada kopyalanmış verilere oranının 2020'den 2024'e kadar yavaş yavaş 1:9'dan 1:10'a yükselmesi bekleniyor. Bu arada, dünya çapında oluşturulan, yakalanan, kopyalanan ve tüketilen veri miktarının 2020 yılında yaklaşık 59 Zettabayt iken 2024 yılına kadar 149 Zettabayt seviyesine yükselmesi beklenmektedir. Bu şu anlama geliyor; 2020 yılında veri dünyasını 5.9 Zettabayt tekil ve benzersiz veriler oluştururken 2024 yılına kadar bu benzersiz veriler 7.51 Zettabayt artış ile 13.41 Zettabayt seviyesine ulaşacaktır. Fakat diğer yandan çoğaltılan yada kopyalanan verilerde 53.1 Zettabayt seviyesinden 135.59 zettabayt seviyesine ulaşacak. Yani analitik uygulamalarımızda kullanmak üzere mevcut tekil verilerimizi 4 yıllık süre içerisinde 2.5 kat daha fazla kopyalayacağız yada kullanmak üzere başka ortamlara taşıyacağız.
Peki biz bu verileri kullanmak için bu kadar büyük ETL süreçlerine, donanım yatırımlarına ve altyapı birimlerimizde daha fazla efora neden ihtiyaç duyalım ? Bu verilerimizi taşımak yada kopyalamak yerine bulunduğu yerden kullanarak tasarruf etmek varken bu kadar maceraya atılmanın ne gereği var ??
Bencede buna hiç gerek yok, Veri ağı ile neler yapabileceğimize ve bize ne gibi faydalar sağlayabileceğine bir bakalım;
Data Mesh (Veri Ağı) Kullanımının Faydaları
- Bir şirketin tüm yapılandırılmış verileri, veri hareketi olmadan tek bir yerde güvence altına alınır ve tek bir SQL ile ölçekli ve sonsuza kadar sorgulanabilir.
- Veri ağı bir veri gölü değildir tam tersine S3 veya HDFS gibi Veri Göllerinin teknolojisinden yararlanır ve farklı veri gölü ortamlarını tek bir noktada birleştirmenizi sağlar.
- Ölçeklenebilir ve güvenlidir. Yetki tabanlı erişim kontrolü (RBAC) ve Aksiyon tabanlı erişim kontrolü (ABAC) ile ölçeklenebilir güvenlik sağlanır. Kullanıcılara tek tabloya SELECT verilmez, ancak özniteliğe verilir ve öznitelik sütunlarla ilişkilendirilir. Sütun kökeni, bu niteliklerin otomatik olarak yayılmasını sağlar.
- Genellikle, veri hareketi sırasında meta veriler kaybolur. Fakat veri ağı teknolojisi Apache Hive gibi Metastore teknolojilerinden faydalanarak meta verilerinizin kaybolmasının önüne geçer.
- Ölçekte sorgulanabilir. Tablo yönlendirmeleri ve yerel önbelleğe alma sayesinde varlık kataloğunda kopyalar oluşturmadan en yüksek performans ile sorgulama sağlar.
- Farklı veritabanlarının farklı standartlara sahip SQL sorgulama dilleri sorunlar yaratır. Taşınabilir olmayan SQL veritabanları için birçok veri temizliği yapılır. Bir Veri Ağı platformunda ANSI-SQL standartlarında yalnızca bir ortak SQL dili vardır ve tüm sorgular tek bir dilde tanımlanarak farklı veritabanları arasındaki veri tipi ve sorgulama şeklinden kaynaklanan uyumsuzluklar ortadan kaldırılır.
- SQL neredeyse 50 yaşında ama her şirketin eski veritabanları var. Fiziksel veritabanlarının üzerinde bir Query Fabric kullanmak, kullanıcılar tarafından yazılan SQL kodunun taşınmasını gerektirmediğinden eski veritabanlarının aşamalı olarak kullanımdan kaldırılmasını çok daha kolay hale getirecektir.
- Eş zamanlı kullanıcı avantajı sağlar. Bir veri ağında sahip olduğu dağıtık mimari sayesinde asenkron ve paralel veri işleme işlevselliğini bize sunar ve maksimum sayıda eş zamanlı kullanıcı sistemi en verimli şekilde kullanabilir.
Data Mesh (Veri Ağı) Altyapısı ve İşleyişi Nasıldır?
Veri ağı teknolojisi teknik olarak Hadoop yada Cloudera benzeri platformlarda olduğu şekilde çok düğümlü ve ana düğüm - işçi düğüm prensibine dayanır. Kullanıcıların veri yada sorgu talepleri alındıktan sonra ana düğümler Starburst katmanında veriyi ihtiyaç duyduğu veri gölü, ilişkisel veritabanı, NoSQL veritabanı yada mesaj kuyruğu servislerinden almak üzere iş yüklerini parçalayarak işçi düğümlere dağıtır. Sonrasında işçi yükler farklı kaynaklardan toplayacakları verileri işleyerek bellek aracılığı ile kullanıcıya herhangi bir taşıma yada kopyalama ihtiyacı olmadan sunar. Bu işlemi yaparken sorgulama yapan kullanıcının talebine istinaden, veri şifreleme, veri maskeleme işlevlerini yürütür ve kullanıcının sahip olduğu yetkiler gereğince sadece yetkili olduğu kaynaklara erişmesine yada görüntülemesine satır, sütün yada veri kaynağı özelinde izin verilir. Tüm bunlar yapılırkende sorguların günlük kayıtları performans, kaynak tüketimi ve erişilen veri özelinde tutularak ayrıca bir veritabanında tutulur. Veri ağı platformu tüm bunları kullanıcılar için tamamen otomatik bir şekilde uçtan uca yönetir ve iş zekası, raporlama yada diğer iş birimi ekiplerine kolay bir kullanım avantajı sağlar.
Biz Komtaş olarak 'Veri Ağı' teknolojisini kurumunuz için nasıl konumlandırıyoruz ve bunu yaparak sizlere ne kazandırıyoruz merak ediyorsanız aşağıda yer alan Demo gösterimini izleyerek daha fazla fikir sahibi olabilirsiniz. Bu demo uygulamasında ilişkisel veri tabanı olarak konumlandırılan 2 Postgres veri kümesi (sales ve marketing) olarak sisteme entegre edilmiştir ve global başlığı altında S3 object storage katmanı yine sisteme entegre edilmiştir. Ayrıca bu verilerin ön bellekte (cache) tutulabilmesi için veri ağı üzerinde bir cache kümesi oluşturulmuş ve değişim frekansı düşük fakat sorgulama frekansı yüksek veriler yine bu alana yönlendirilmiştir. Bu veri ağınız içerisine bulut ortamlarda yer alan farklı tipte veri kaynaklarınızı yada Hadoop gibi büyük veri kümelerinizi de rahatlıkla ekleyerek ağınızı zenginleştirebilirsiniz. Örnek uygulamada S3 üzerinde yer alan global satış verileri ile ilişkisel veri tabanlarında yer alan veriler tek bir sorgu altında birleştirilerek saniyeler içerisinde sorgulanmaktadır ve bunu yaparken sorgulayan kullanıcının sadece yetkisi dahilinde olan alanlar kullanıcıya gösterilmektedir. En önemli nokta ise bu veri sanallaştırma işlemi sırasında veri ağı üzerinde hiçbir veri kopyalama ve verinin bir yerden başka bir yere taşınması gibi daha fazla maliyet ve yük getirecek süreçler uygulanmamaktadır.
Sonuç olarak büyük miktarda veri kaynağı kullanan ve verileri hızlı bir şekilde dönüştürme yada kullanma/erişim ihtiyacı olan ekiplerin, bir veri ağından yararlanmayı düşünmeleri akıllıca olacaktır.
Kurumunuzun Data Mesh (Veri Ağı) Puanını Nasıl Hesaplayabilirsiniz?
Kuruluşunuzun bir veri ağına yatırım yapmasının mantıklı olup olmadığını belirlemek için basit bir hesaplamayı bir araya getirdim. Aşağıdaki her soruyu bir sayı ile yanıtlayın ve hepsini bir araya getirerek toplam veri ağı puanınızı elde edin.
Veri kaynaklarının miktarı: Şirketinizin kaç veri kaynağı var?
Veri ekibinizin boyutu: Veri ekibinizde kaç tane veri analisti, veri mühendisi ve ürün yöneticisi var?
Veri etki alanı sayısı: Kaç işlevsel ekip (pazarlama, satış, operasyon vb.) karar verme sürecini yönlendirmek için veri kaynaklarınıza güveniyor, şirketinizin kaç ürünü var ve kaç tane veriye dayalı özellik oluşturuluyor? Toplamı ekleyin.
Veri mühendisliği darboğazları(bottleneck): Veri mühendisliği ekibi, 1'i "hiçbir zaman" ve 10'u "her zaman" olmak üzere 1'den 10'a kadar bir ölçekte yeni veri ürünlerinin uygulanmasında ne sıklıkla bir darboğaz yaşıyor?
Veri yönetimi: Kuruluşunuz için veri yönetişimi ne kadar önceliklidir?
Data Mesh (Veri Ağı) Puanı Nedir?
Puanınızı nasıl parçalayacağınız aşağıda açıklanmıştır:
1–15: Veri ekosisteminizin boyutu ve tek boyutluluğu göz önüne alındığında, bir veri ağına ihtiyacınız olmayabilir.
15–30: Kuruluşunuz hızla olgunlaşıyor ve hatta verilere gerçekten dayanabilme açısından bir yol ayrımında olabilir. Daha sonraki bir geçişin daha kolay olabilmesi için bazı veri ağı uygulamalarını ve kavramlarını dahil etmenizi şiddetle önerilir.
30 veya üzeri: Veri organizasyonunuz, şirketiniz için bir inovasyon sürücüsüdür ve bir veri ağı, verileri demokratikleştirmek ve kuruluş genelinde self servis analitik sağlamak için devam eden veya gelecekteki tüm girişimleri destekleyecektir. Bu aşamada bir veri ağı sizin için olmazsa olmaz hale gelmeye başlamıştır.
Skor sonuçlarınızı bizimle paylaşarak ve Veri Ağı çözümlerimiz hakkında daha detaylı bilgi almak için form doldurabilirsiniz. Ayrıca Data Mesh alanında uzman Starburst teknolojimiz hakkında bilgi alabilirsiniz.
İlginizi Çekebilecek Diğer İçeriklerimiz
Veri analisti (Data Analyst), verileri toplayan, analiz eden ve bu verilerden anlamlı içgörüler çıkararak işletmelere stratejik kararlar almalarında yardımcı olan bir profesyoneldir.
Makine Öğrenimi Mühendisi (Machine Learning Engineer), veri analizi ve yapay zeka algoritmalarıyla çalışan, makinelerin öğrenmesini ve veri odaklı kararlar almasını sağlayan sistemleri geliştiren bir profesyoneldir. Bu mühendisler, istatistik, programlama ve veri bilimi becerilerini kullanarak, iş süreçlerini otomatikleştiren ve optimize eden çözümler oluşturur.