Data Mesh, ilki alan odaklı sahiplik ve mimari olmak üzere dört temel kavrama dayanmaktadır. Bu blogda, bunun ne anlama geldiğini keşfedecek ve merkezi olmayan bir veri ekosistemini destekleyen temel bir değişimin ayrıntılarını inceleyeceğiz.
Domain (etki alanı) nedir?
Domain, tipik olarak ortak bir iş amacı etrafında organize olmuş insan topluluğudur. Etki alanları genellikle kuruluşu yansıtarak başlar ve daha sonra buradan yinelenir. Bir e-ticaret sitesi için etki alanı örnekleri arasında kullanıcılar, satıcılar, ürünler, pazarlama vb. yer alabilir. İşlevsel bir bakış açısıyla, etki alanı çeşitli amaçlara hizmet edebilir: örneğin, satıcılar etki alanı satıcılarla iş ortağı ilişkilerine sahip olabilir, ürünleri izleyebilir, satıcılar için ödemeleri düzenleyebilir vb. İdeal olarak, her etki alanı veri üretimini (alımını), dönüşümünü ve veri ürünlerinin aşağı akış analitiğine sunulmasını sağlar - veriler nihai olarak bu şekilde iş değeri sağlar.
Merkezi veri sahipliği ile ilgili zorluklar
Zaman içinde sayısız veri ekibi tarafından görüldüğü gibi, veri üreticileri ve veri tüketicileri arasındaki herhangi bir kopukluk, sonuçta verilerden iş değeri elde ederken bir zorluk yaratır. Verilerin sahipliğinin el değiştirmesinde verinin değerini azaltan doğal bir sinyal kaybı söz konusudur. Merkezi bir veri ortamında, bir etki alanı tarafından üretilen verilere nihai olarak kimin sahip olduğu ve bunlardan kimin sorumlu olduğu genellikle belirsizdir. Bu sorumluluklar arasında veri üretimi, alımı, dönüşümü, kalite güvencesi ve sunumu yer alır. Sağlık hizmeti sağlayıcısı UnityPoint Health'in CIO'su Laura Smith bu konuda şöyle bir yorumda bulunuyor: "Kurumlar için en büyük zorluklardan biri verilerin toplanması değil, verileri uygulayacak ve kurum genelinde değişimi yönlendirecek bir ekip geliştirmektir."
Bugünlerde şirketlerin veri kümelerinden kimin sorumlu olduğunu anlamaya çalışırken sıcak patates oyunu oynamaları yaygındır - verileri üreten mühendislik ekibi yalnızca operasyonel sisteme ve ürün geliştirmelerinin iş işlevine odaklanır -ürettikleri veriler onlar için sonradan düşünülmüş bir şeydir. Nihayetinde iş değerini artırması ve iş kararları için bağlam sağlayabilmesi bir avantajdır, ancak geliştirme ekibinin ilgi alanının dışındadır - onlar yarattıkları ürün üzerinden değerlendirilirler, veriler üzerinden değil.
Forrester'ın gerçekleştirdiği araştırmaya göre, bir kuruluştaki tüm verilerin yüzde 60 ila yüzde 73'ü analitik amaçlar için kullanılamıyor. Bu arada, yakın zamanda yapılan bir Accenture anketinde, şirketlerin yalnızca yüzde 32'si verilerden somut ve ölçülebilir değer elde edebildiğini bildirirken, yalnızca yüzde 27'si veri ve analitik projelerinin yüksek düzeyde eyleme geçirilebilir içgörü ve öneriler ürettiğini söyledi.
Merkezi modelde veriler nihai olarak operasyonel işlevin dışındaki bir veri ekibine aktarılır ve veri mühendisleri ve analistler daha sonra bu verileri ve diğer tüm işlevlerden gelen verileri anlamaya ve bunlardan değer elde etmeye çalışır. Bu elbette sorunlu bir durumdur çünkü veriyi çevreleyen bağlamın genişliğine ve derinliğine sahip olanlar veri üreticileridir - bu konuda en bilgili olanlar onlardır. Bu modelde analistler veri üretiminden ve veriyi en iyi bilen kişilerden çok uzaktadır. Dahası, veri mühendisliği çalışmaları veri üreticileri ile analistler arasında açık bir darboğaz haline gelir. Bu verimsizlik, analitiklerin gerektirdiği herhangi bir değişiklik veya ek bilginin üretilmesinin çok uzun sürdüğü bir "kıyamet döngüsü" ile sonuçlanır; veriler analistlerin spesifikasyonlarına göre güncellendiğinde, genellikle artık gerekli değildir veya ek değişiklikler tanımlanmıştır. Veri üreticileri ve veri tüketicileri arasında net bir bağlantı olmadığında, geri bildirim kaybı ve veride değer kaybı meydana gelir.
Etki alanı odaklı veri sahipliği
Data Mesh, verilerin sahipliğinin harici bir veri ekibinden operasyonel alana kaydırılmasına dayanır - bu olmadan, veri sahipliği el değiştirdikçe değerin kaybolmaya devam ettiği yukarıda ayrıntılı olarak açıklanan zorlukları tekrarlamaya devam edeceğiniz söylenebilir. Data Mesh, özünde bir kuruluşun verilerine etki alanı odaklı ayrıştırma ve sahiplik uygular. Etki alanları ürettikleri verilerden sorumludur - bu verilerin alınması, dönüştürülmesi ve son kullanıcılara sunulması. Verilerin sahipliğini ve sorumluluğunu etki alanına geri kaydırarak, veri sahipliğinin devri ve dolayısıyla değer kaybı olmaz - veriler hakkında en çok bilgi sahibi olan kişiler, verileri analiz için hazırlayan ve sağlayan kişilerdir. Veriler, etki alanının ürettiği ve sorumlu olduğu başka bir ürün haline gelir ve veri mühendisleri, değerli veri ürünleri üretmek için diğer etki alanı KOBİ'leriyle yakın bir şekilde çalışarak tek bir etki alanındaki verilere odaklanır.
Özellikle, etki alanı veri ürünü sahipliği, ürün sahiplerinin ve geliştiricilerin aşağıdakiler için hem sorumluluğa hem de hesap verebilirliğe sahip olduğu anlamına gelir:
- Veri ürünlerinin oluşturulması ve diğer alanlara ve son kullanıcılara sunulması
- Verilerin kolay erişilebilir, kullanılabilir, hazır ve tanımlanan kalite kriterlerini karşıladığından emin olmak
- Kullanıcı geri bildirimlerine dayalı olarak veri ürününün geliştirilmesi ve artık kullanılmadığında veya ilgili olmadığında veri ürününün kullanımdan kaldırılması
- Bu veri ürünlerinin kurumun geri kalanına tanıtılması ve "pazarlanması"
Alan odaklı teknoloji olanakları
Veri sorumluluğunun sosyal yönü önemli olsa da, bir veri ürünü üretmek için belirli teknolojik yetenekler gerekir. Bu yetenekler etki alanı tarafından belirlenecektir, dolayısıyla teknoloji yeteneklerinin benimsenmesini etki alanı yönlendirir. Örneğin, bir etki alanı PII veya finansal veriler için daha güvenli bir yukarı akış ortamına ihtiyaç duyabilir veya üçüncü taraf ortaklardan veri çekiyor olabilir. Etki alanları, kendi özel verileri için anlamlı olan veri alma, dönüştürme ve sunma araçlarını kullanmalıdır. Bununla birlikte, veri ürünü formatı standartlaştırılmalı ve analitik düzlemde (diğer adıyla Data Mesh deneyim düzlemi) standartlaştırılmış bir şekilde sunulmalıdır, bu da veri ürünü tüketicilerinin sorunsuz bir şekilde çalışmasını sağlar. Etki alanı, etki alanı ortamında kendi veri ürünü geliştirmelerini mümkün kılacak veri teknolojilerine karar vermelidir.
Pratikte neye benziyor?
Uygulamada, etki alanları operasyonel ve analitik düzlemlerden veri alabilen ve uzman bilgisi ve iş deneyimine dayalı olarak sunulan veri ürünleri üretebilen kişileri ve süreçleri içermelidir. Herbir etki alanından gelen veri ürünlerinin analistler ve diğer etki alanları tarafından kullanılmak üzere analitik ortama sunulması gerekir - bu da verilerin etki alanı tarafından, etki alanı dışındaki kullanıcılar tarafından anlaşılabilecek ve kolayca kullanılabilecek şekilde tanımlanması gerektiği anlamına gelir.
Etki alanı verilerinin sahipliğinin bu şekilde değişmesi, sonuçta etki alanının sorumluluğunun daha da genişlemesi ve bu etki alanındaki çalışanların daha fazla çaba göstermesi anlamına gelmektedir. Bu durum, veri mühendislerinin merkezi bir veri organizasyonundaki önceki konumlarından etki alanlarına doğru özgür bırakılmaları ihtiyacını doğurur. Veri mühendisliğinin bir CTO yada CIO'nun yetkisi altında yeniden düzenlenmesi, merkezi bir veri organizasyonundan yeterince değer üretmekte zorlanan birçok şirket için tanıdık bir liderlik sorunudur. Bunu uygulamak için, veri ürünlerinin sahiplenilmesini teşvik etmek üzere etki alanlarının teşvik edilmesi gerekir.
Bu sonuçta veri mühendisleri için iyi bir kariyer ve organizasyon adımı olup, kendilerini çok fazla alana yaymak yerine veri modelleme ve yüksek kaliteli veri ürünlerinin üretimine daha fazla odaklanabilmektedirler.
Yazılım mühendislerinin kendi alanlarında "citizen data engineers" haline gelmeleri için de bir fırsat mevcut; bu da kariyer gelişimi ve veri ürünleri geliştirildikçe alan bilgisini yaymak için harika bir fırsat. Diğer taraftan, daha fazla alana özgü bilgi geliştirdikleri ve alan bilgisine sahip oldukları için, analistlerin daha fazla veri mühendisi gibi olma fırsatı da vardır. Önemsiz olmayan bir beceri örtüşmesi (örneğin SQL), analist ve veri mühendisinin ortak bir dile sahip olması için bir nimettir ve her ikisi için de kariyer hareketi sağlar.
Peki Bu Durum Data Mesh'i nasıl mümkün kılar?
Etki alanı odaklı veri sahipliği ve mimarisi, Data Mesh'i yöneten diğer üç ilkeyi etkinleştirmenin ve yönlendirmenin anahtarıdır:
- Etki alanları, veri ürünlerinin açık sahipleri ve üreticileridir
- Etki alanları diğer etki alanlarından veri ürünlerini içerdiğinde (ürün geliştirme sırasında veya ek veri ürünleri üretirken), ilgili etki alanları arasındaki işbirliğine dayalı ilişkiyi düzenleyen bir sözleşme olmalıdır
- Çeşitli veri ürünlerinin bir kombinasyonunu içeren veri ürünleri, içgörü süresini hızlandırır, böylece işletmenin toplam değerini artırır ve veri-değer açığını kısaltır
- Etki alanları, her bir veri ürününe özgü yetkilendirme de dahil olmak üzere yönetişimin yönergelerini denetler
- Etki alanları, merkezi IT kuruluşu tarafından tanımlanan ve uygulanan güvenlik, uyumluluk ve düzenleme çerçevesinde çalışır
- Etki alanları, merkezi IT organizasyonu tarafından sağlanan bir self-servis altyapısı üzerinde veri ürünleri oluşturur.
Starburst etki alanı odaklı sahipliği nasıl destekler?
Özünde Starburst, veri ile veriden elde edilen iş değeri arasındaki yolu kısaltır. Bunun veri ürünleri üretme bağlamındaki anlamı, bir etki alanının veri mühendislerinin veri mühendisliği çabalarını desteklemek için altyapı ve süreç oluşturmaya daha az odaklanmasını sağlamak için Starburst'a güvenebileceğidir. Veri mühendisleri bunun yerine, son kullanıcılar için yüksek kaliteli, düşük gecikmeli veri ürünleri hazırlamak üzere SQL gibi zaten bildikleri basit araçları kullanmaya daha fazla odaklanabilirler. Starburst ayrıca analistler ve veri bilimcileri tarafından veri ürünlerine erişimi kolaylaştıran ve basitleştiren sorgu motoru olarak alanlar arası analitik katmanda da kullanılabilir.
Starburst ayrıca gerekli toplam satıcı (ve satıcıya özgü bilgi) sayısını azaltır ve geniş bağlayıcı seti ile her bir etki alanının veriye nerede ve hangi formatta olursa olsun bağlanmasına olanak tanır. SQL tabanlı arayüzü ile Starburst, veri dilini kullanan tutarlı ve tanıdık bir arayüz sağlayarak "citizen data engineers"lerin yanı sıra kurum genelindeki analistlere de olanak tanır. Ayrıca, bulut veya mikro hizmet mimarisi yolculuğunuzun neresinde olursanız olun, Starburst yalnızca farklı mimarilerdeki verileri desteklemekle kalmaz, bu yolculuk boyunca sizinle birlikte hareket edebilecek kadar esnektir - yeni veri kaynakları eklemek veya mevcut olanları ayarlamak kolaydır.
İlginizi Çekebilecek Diğer İçeriklerimiz
MLOps, kurumlarda yapay zeka uygulamalarında yaşanan sorunlara çözüm olarak Makine Öğrenmesi modellerinin tasarım, uygulama ve yönetiminin tüm yaşam döngüsüne odaklanarak sonuçları yönlendirir ve Model Geliştirme, Model Operasyonu ve Sistem Operasyonu noktasında kurumlara fayda sağlar.
"Amazon'un boyutu" ifadesini aradığınızı düşünün. Arama uygulaması şirketi mi yoksa nehri mi kastettiğinizi nasıl bilecek? Başka bir deyişle, yapay zeka belirli bir görevin bağlamını nasıl anlayabilir?