Regresyon, veri analizinin temel yapı taşlarından biridir ve değişkenler arasındaki ilişkiyi matematiksel olarak modelleyen güçlü bir istatistiksel analiz yöntemidir. Değişkenler arasındaki ilişkiyi anlama, tahmin etme ve modelleme gereksinimi olan herkes için önemli bir araçtır. İstatistik alanında yıllardır kullanılan regresyon günümüzde yapay zekâ ve makine öğreniminin ötesine geçmiş ve temel bir unsura dönüşmüştür. Satış tahminlerinden, iklim değişikliği modellerine, finansal tablolardan, pazarlama uzmanlarının kampanya optimizasyonuna kadar geniş bir yelpazede regresyon analizinden yararlanır.
Regresyon analizi, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi tanımlayan istatistiksel bir yöntemdir. Temel amacı, bağımsız değişkenlerin değerlerinden bağımlı değişkenin değerini tahmin etmektir. Bu ilişkiyi matematiksel bir model olarak ifade ederek veri setindeki değişkenler arasındaki ilişkiyi anlamamızı sağlar.
Regresyon terimi ilk olarak 19. yüzyılda Sir Francis Galton tarafından kullanılmıştır. Galton, boyları uzun olan ebeveynlerin çocuklarının da uzun olma eğiliminde olduğunu ancak ebeveynlerinin boy ortalamasına göre daha kısa olduklarını gözlemlemiştir. Bu eğilimi "ortalamaya dönüş" olarak adlandırmış ve "regresyon" terimini bu bağlamda kullanmıştır.
Bugün kullandığımız regresyon analizi, Karl Pearson ve Udny Yule gibi matematikçilerin katkıları ile geliştirilmiş ve 20. yüzyılın başlarında istatistik biliminin önemli bir parçası haline gelmiştir. Modern bilgisayar teknolojilerinin gelişmesiyle birlikte karmaşık regresyon modellerini hızlı bir şekilde hesaplama kabiliyeti elde edilmiş ve bu durum regresyon analizinin yaygınlaşmasına katkıda bulunmuştur.
Regresyon analizinin farklı veri türleri ve ilişki yapılarına göre çeşitli türleri bulunmaktadır. Bu türler analiz edilecek verinin yapısına, bağımlı ve bağımsız değişkenler arasındaki ilişkinin doğasına göre seçilir. En yaygın kullanılan regresyon türleri:
Basit doğrusal regresyon, tek bir bağımsız değişken (X) ile bağımlı değişken (Y) arasındaki doğrusal ilişkiyi modelleyen en temel regresyon türüdür. Matematiksel olarak şu şekilde ifade edilir:
Y = β₀ + β₁X + ε
Burada:
Basit doğrusal regresyon, örneğin bir ürünün fiyatı ile satış miktarı arasındaki ilişkiyi modellemek veya çalışma saati ile üretim miktarı arasındaki ilişkiyi analiz etmek için kullanılabilir.
Çoklu doğrusal regresyon, birden fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini modelleyen regresyon türüdür. Formülü şöyledir:
Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε
Burada:
Çoklu doğrusal regresyon, daha karmaşık ilişkileri modellemek için kullanılır. Örneğin, bir evin fiyatını tahmin etmek için konum, büyüklük, oda sayısı, yaş gibi birden fazla faktörü dikkate alabilir.
Polinomsal regresyon, bağımsız ve bağımlı değişken arasındaki ilişkinin doğrusal olmadığı durumlarda kullanılan bir regresyon türüdür. Bağımsız değişkenin farklı kuvvetlerini içerir:
Y = β₀ + β₁X + β₂X² + β₃X³ + ... + βₙXⁿ + ε
Polinomsal regresyon, doğrusal olmayan karmaşık ilişkileri modellemekte etkilidir. Örneğin, bir ürünün yaşam döngüsündeki satış eğilimlerini veya sıcaklığın bitki büyümesi üzerindeki etkisini modellemek için kullanılabilir.
Lojistik regresyon, adına rağmen aslında bir sınıflandırma yöntemidir ve bağımlı değişkenin kategorik olduğu durumlarda kullanılır. En yaygın kullanımı, sonucun iki kategoriden birini (başarılı/başarısız, evet/hayır, 1/0) tahmin etmek için olsa da, çok kategorili sınıflandırma için de genişletilebilir.
Lojistik regresyon, olasılıkları 0 ile 1 arasında bir değere dönüştüren lojistik fonksiyon (sigmoid fonksiyonu) kullanır:
P(Y=1) = 1 / (1 + e^(-(β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ)))
Lojistik regresyon, kredi risk değerlendirmesi, tıbbi teşhis, müşteri davranışlarını tahmin etme gibi alanlarda yaygın olarak kullanılır.
Regresyon analizi, "en küçük kareler yöntemi" adı verilen bir optimizasyon tekniğini kullanarak çalışır. Bu yöntem, gerçek değerler ile tahmin edilen değerler arasındaki farkların (kalıntılar) karelerinin toplamını minimize eden parametreleri bulmayı amaçlar.
Regresyon analizinin temel adımları şunlardır:
IDC'nin 2023 raporuna göre, veri bilimi projelerinin %68'inde regresyon analizi temel modelleme tekniği olarak kullanılmaktadır. Bu regresyon analizinin günümüzde hala en güvenilir ve yaygın kullanılan analitik yöntemlerden biri olduğunu göstermektedir (IDC Worldwide Data & Analytics Survey, 2023).
Bir regresyon modelinin performansını değerlendirmek için çeşitli metrikler kullanılır. Bu metrikler, modelin veri setine ne kadar iyi uyduğunu ve tahminleme gücünü ölçmeye yardımcı olur.
R-kare (R²), bağımlı değişkendeki varyasyonun ne kadarının bağımsız değişkenler tarafından açıklandığını gösteren bir metriktir. 0 ile 1 arasında değer alır:
Formula:R² = 1 - (SSres / SStot)
Burada:
R² değeri, modelin genel uyumunu değerlendirmek için yaygın olarak kullanılır, ancak tek başına yeterli değildir ve diğer metriklerle birlikte değerlendirilmelidir.
Düzeltilmiş R-kare, standart R-kare metriğinin bir varyasyonudur ve modeldeki bağımsız değişken sayısını dikkate alır. Bu, özellikle çoklu regresyon modellerinde önemlidir, çünkü standart R-kare değeri modele değişken ekledikçe genellikle artar.
Formülü:Düzeltilmiş R² = 1 - [(1 - R²) * (n - 1) / (n - p - 1)]
Burada:
Düzeltilmiş R-kare, modele gereksiz değişkenler eklenmesini cezalandırır ve bu nedenle model karşılaştırması için daha uygun bir metriktir.
Ortalama Kare Hata (Mean Squared Error - MSE), tahmin edilen değerler ile gerçek değerler arasındaki farkların karelerinin ortalamasıdır. MSE ne kadar düşükse, model o kadar iyi performans gösteriyor demektir.
Formülü:MSE = (1/n) * Σ(yᵢ - ŷᵢ)²
Burada:
MSE, büyük hataları daha fazla cezalandırır, çünkü hataların kareleri alınır.
Kök Ortalama Kare Hata (Root Mean Squared Error - RMSE), MSE'nin kareköküdür ve tahmin hatalarını orijinal bağımlı değişkenin ölçeğinde ifade eder. Bu, sonuçların yorumlanmasını kolaylaştırır.
Formülü:RMSE = √MSE = √[(1/n) * Σ(yᵢ - ŷᵢ)²]
RMSE, model performansını değerlendirmek için yaygın olarak kullanılan bir metriktir ve model karşılaştırmalarında sıklıkla tercih edilir.
Regresyon analizi güçlü bir araç olsa da, doğru uygulanması ve yorumlanması için dikkat edilmesi gereken bazı önemli noktalar vardır:
1. Doğrusallık Varsayımı: Doğrusal regresyon modelleri, bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki olduğunu varsayar. Bu varsayım karşılanmadığında, doğrusal olmayan regresyon modelleri düşünülmelidir.
2. Bağımsızlık: Gözlemler birbirinden bağımsız olmalıdır. Örneğin, zaman serisi verilerinde genellikle bağımsızlık ihlal edilir ve özel yöntemler gerektirir.
3. Homojenlik: Hata terimlerinin varyansı sabit olmalıdır (homoskedastik). Bu varsayım ihlal edildiğinde, ağırlıklı en küçük kareler gibi alternatif yöntemler kullanılabilir.
4. Normallik: Hata terimleri normal dağılıma sahip olmalıdır. Bu varsayım büyük örneklemlerde merkezi limit teoremi sayesinde genellikle karşılanır.
5. Çoklu Bağlantı (Multicollinearity): Bağımsız değişkenler arasında yüksek korelasyon olduğunda ortaya çıkar ve model parametrelerinin tahminini zorlaştırır. Varyans şişirme faktörü (VIF) gibi metrikler bunu tespit etmek için kullanılabilir.
6. Aykırı Değerler: Aykırı değerler regresyon modelini önemli ölçüde etkileyebilir. Bu nedenle, analiz öncesinde tespit edilmeli ve uygun şekilde ele alınmalıdır.
7. Değişken Seçimi: Modele hangi değişkenlerin dahil edileceği kritik bir karardır. Akaike Bilgi Kriteri (AIC) veya Bayesian Bilgi Kriteri (BIC) gibi metrikler, optimal model seçiminde yardımcı olabilir.
8. Overfitting (Aşırı Uydurma): Çok karmaşık bir model, eğitim verisine mükemmel uyum sağlayabilir ancak yeni verilerde kötü performans gösterebilir. Çapraz doğrulama gibi teknikler bu sorunu azaltmaya yardımcı olur.
Regresyon analizi, bilimsel araştırmalardan ticari uygulamalara kadar geniş bir kullanım alanına sahiptir. Hem basit hem de karmaşık veri setlerinde uygulanabilir. Komtaş'ın veri analizi ve modelleme çözümleriyle regresyon yöntemlerini iş süreçlerinize entegre edebilirsiniz. Daha fazla bilgi almak için bize her zaman ulaşabilirsiniz!
Data Privacy, bireylerin veya kuruluşların kişisel veya hassas verilerinin toplanması, saklanması, paylaşılması ve işlenmesi sırasında güvenli ve gizli bir şekilde korunmasını ifade eder.
SaaS (Software as a Service), yazılımın bir hizmet olarak internet üzerinden sunulmasını ifade eden bir bulut bilişim modelidir.
Predictive analysis, a type or extension of predictive analysis, is used to recommend or predict certain actions when certain information states are reached or conditions are met.
We work with leading companies in the field of Turkey by developing more than 200 successful projects with more than 120 leading companies in the sector.
Take your place among our successful business partners.
Fill out the form so that our solution consultants can reach you as quickly as possible.