İçindekiler
Regresyon (Ortalamaya Gerileme)

Regresyon (İngilizce: Regression) Türkçe’ye Bağlanım olarak çevrilmiş olsa da ekonometri/istatistik kitaplarında halen kelimenin Türkçe okunuşu olan regresyon kullanılıyor.
TDK’ya göre Regression kelimesi Fransızca kökenli olup; “iki veya daha çok değişken arasında doğrusal bir ilişki olup olmadığının bulunması ve doğrusal ilişkinin bir doğrusal denklemle nasıl ifade edildiğinin gösterilmesi” anlamına gelmektedir. Merriam -Webster online İngilizce sözlüğe göre Regression kelimesi Regressing yani gerileme kelimesinden gelmektedir. Burada gerilemeden kastedilen ise var olan iyi bir durumdan daha kötü bir duruma geçiş anlamına gelmektedir. Örneğin zenginken orta gelirli hale gelmek. Gerileme ile iki değişken arasında doğrusal ilişkinin araştırıldığı regresyon kelimesi arasında nasıl bir bağlantı var?
Askerde iken içtima aralarında Nobel Ekonomi Ödüllü Daniel Kahneman’ın “Hızlı ve Yavaş Düşünme” kitabını okuma fırsatı buldum (Askerliğimi bedelli yaptım. Uzun dönem yapanlara saygılarımla). Kitabın birçok bölümünde “ortalamaya doğru gerileme” kavramı ile karşılaştım. Birçok ekonometri, istatistik dersi almış ve ekonometrik analizler yapmış olmama rağmen bu kavramı hiç duymamıştım. Askerde iken araştırma yapabileceğim imkanım da yoktu. Bu yüzden bu kavramın geçtiği bölümleri kafamda bir türlü oturtamadım. Kötü bir çeviri yapılmış diye düşündüm. Askerden döndüğümde kitabın İngilizcesini okursam anlarım belki dedim. Askerlik bitti üniversiteye döndüm derken Wuhan’da yarasa sever arkadaş nedeniyle pandemi patlak verdi. Neyse Regresyon diyordum. Geçtiğimiz günlerde Twitter’da takip ettiğim istatistikçi Serkan Dolma Hoca‘nın attığı twitsel (birbirine bağlı twitlerin oluşturduğu twit dizisi) ile konu tekrar açıldı. Serkan Dolma hocamız Daniel Kahneman’ın kitabı ve başka bir kaynak kullanarak regresyon kavramını çok güzel açıklamış.
Sir Francis Galton’un Çalışması
Modern istatistik veya ekonometri öncesi günlere gidiyoruz. Viktorya döneminin en önemli bilim insanlarından biri olan Sir Francis Galton istemeden de olsa Regression kelimesinin de isim babası olacaktır. Pozitif bilimle oldukça ilgili olup tıp okuyan Galton’un ayrıca antropoloji, istatistik, psikometri, coğrafya, psikoloji gibi disiplinlere de ilgisi vardır. Evrim tartışmalarının yoğunlaştığı bir dönemde kendi sülalesini içine alan gözlemlerde bulunarak dehanın kalıtımsal olduğunu kanıtlamak ister (kendi dehasının atalarından kalıtımla geçtiğini düşünür)
Viktoria Dönemi Kraliçe Viktorya’nın hüküm sürmüş olduğu 1837 ve 1901 arasındaki zaman DİLİMİ İÇİN kullanılır.
Victoria Döneminde İngilizler Onedio’da zeka testi çözemediği için! 🙂 Zeka seviyelerini ölçemiyorlardı. İşin şakası bir yana Galton Zeka seviyesini doğrudan ölçemediği için zeka seviyesi yerine daha antropometrik yani; kol, bacak, kafatası genişliği gibi gözle görülebilen şeyleri ölçmek zorunda kalmıştır. Galton’un kuzeni olan Charles Darwin maliyetli olduğu için insan yerine önce bezelyeler üzerine ölçüm yapmasını önerir. Bir süre sonra Galton para bularak kendi laboratuvarını kurarak ölçümler gerçekleştirmeye başlar.
Galton’ın antropometrik ölçüm yaparak katılımların aile üyelerine ait verileri toplamaya başlar. Topladığı veriler arasında babalar ve çocukların boyları da vardır. Bunları karşılaştırarak evrimsel açıdan bir gelişme olup olmadığını sınar. Eğer kalıtım sonraki nesillerde boy uzunluğu üzerinde etkisi olan bir değişken ise “uzun boylu babaların uzun boylu çocukları” olacaktır.

Bu ilişkiyi analiz etmek üzere [scatter plot] nokta dağılım grafiği oluşturur.
Şekil 1) Babalar ve oğullarına boylarına ait nokta dağılım grafiği

Sir Galton babaları ortalamadan uzun boylu çocukların da boylarının ortalamadan uzun olmasını beklemiştir. Sonuçlar da Galton’un beklediği gibi çıkar. Nokta dağılım grafiğinde serpilen veriler elips şeklini alır.

Şekil 1’de ve Galton’un orjinal çalışmasında da görüldüğü gibi her bir baba-oğul çiftini temsil eden noktaların I. ve III. bölgelerde toplanması babanın boy ortalaması ve oğlun boy ortalaması arasında bir çeşit korelasyon ilişkisi olduğunu göstermektedir(Mesela grafik üzerinde bir nokta Baba=175 cm oğul 180 cm anlamına geliyor)Halen regresyon konusuna gelememiş olabiliriz fakat Francis Galton çalışmada bir şeyi daha fark ediyor. Boyları örneklem ortalamasından uzun olan babaların oğulları, örneklem ortalamasından yüksek (yani daha uzun olsa da) genellikle kendi babalarından daha kısa oluyorlar. Örnek verelim; 100 baba ve oğlunun boyunun ölçüldüğünü düşünün.
- Bütün oğulların boy ortalaması: 165 cm olsun.
- Bütün babaların boy ortalaması: 160 cm olsun
Bu örneklemde babası ortalamadan daha uzun mesela 190 cm boya sahip olan çocukların boyu da ortalamadan daha yüksek (mesela 180 cm) ama genellikle babalarından düşük çıkıyor. Kısaca babaların çok uzun olduğu durumlarda çocuklar babalarından daha kısa oluyor! Boyu ortalamadan kısa olan babaların (150 cm diyelim) çocukları da 165 cm’den kısa olsa da bu çocuklar babalarından daha uzun oluyor.
Grafikte siyah kesikli çizgi üzerinde olan kırmızı noktaların bazılarında baba uzun olsa da çocuklar babalarından kısa. Bunun tersini oğullar için de yapabilirsiniz.
Şöyle düşünelim eğer kalıtım nedeniyle uzun boylu babaların çocukları her zaman babalarından uzun olsaydı ne olurdu?
Baba 190 cm, çocuğu 195 cm. Sonra çocuk büyüyor 195 cm uzunluğunda bir baba oluyor. Onun çocuğu da babasından daha uzun olsun 200 cm ve devam etsin. Tam tersine kısa boylu babaların da çocukları babalarından kısa olsun! Baba 165 cm oğlu 160 cm diye gitsin. Birkaç yüzyıl içinde Hobbitler ve dev adamlardan oluşan bir toplum meydana gelirdi.
Sir Francis Galton bu duruma “vasatlığa doğru gerileme” (English: Reversion/regression towards the mediocrity/mean) adını vermiştir. Galton bu gerilemenin iki değişken arasındaki ilişkinin gücüne bağlı olduğunu düşünüp bu ilişki gücünü sayısal şekilde gösterme adına “index of co-relation” (Korelasyon) kavramını icat etmiştir. Yıllar sonra başka bir istatistikçi olan Karl Pearson, Galton’un çalışmalarını geliştirerek bugün ilişkisel gücü göstermek adına kullanılan korelasyon katsayısını geliştirmiştir. Babaların boy uzunluğunu kullanarak oğulların boylarını tahmin etmekte kullanılan doğrunun adına da “regression towards mean” yani “ortalamaya doğru gerileme” adı verilmiştir. Bu kavram zamanla sadece REGRESYON şeklinde kullanılmaya devam etmiştir..
Bugün ekonometride kullandığımız Regresyon yöntemi ise En Küçük Kareler Yöntemi (EKK) (İngilizce: Ordinary Least Squares) ile gerçekleştirilmektedir. EKK yöntemi ise Galton’dan 50-60 yıl kadar önce Alman matematikçi Carl Friedrich Gauss ve Fransız matematikçi Adrien-Marie Legendre tarafından icat edilmiştir. EKK’yı kendisi bulmasa da Ortalamaya Doğru Gerileme kavramını ve korelasyonu ilk bulan kişi Galton’dur.
En Küçük Kareler Yöntemi
Serkan Dolma Hoca’nın Twitseli: https://twitter.com/TrDolma/status/1335495051510755329
Tarihe meraklı biri olarak konuyu böyle öğrenmek benim için daha kalıcı ve keyifli oluyor. Yazınız için teşekkürler.