Türkiye'de gerçekten COVID-19 kaynaklı 2140 kişi mi vefat etti?

Türkiye'de gerçekten COVID-19 kaynaklı 2140 kişi mi vefat etti?

TL;DR

Geçmiş yıllara ait vefat verilerini dikkate alırsak COVID-19 kaynaklı ölümlerin açıklanan resmi sayılardan büyük ihtimalle daha yüksek olduğunu söyleyebiliriz, ama açıklanan veriler gerçek sayıdan çok uzak değil.
Vefat sayısının birikimli olasılık dağılımını güncel olarak https://verikafasi.orghttps://verikafasi.org/coronamap#/turkey'de paylaşıyoruz.

Resmi rakamlara göre 20 Nisan 2020 itibariyle, Türkiye'de 2140 insan COVID-19 nedeniyle hayatını kaybetti. Fakat bu sayının ne kadar gerçeği yansıttığı tartışmaları an itibariyle devam ediyor.  NY Times daha iki gün önce bizim burada yer verdiğimiz verileri kullanarak Türkiye'nin ölümleri sakladığını iddia etti.

NY Times makalesinden. Yıllar arası farklar ya da başka bir değişle yıllar arası trend göz ardı edilmiş. Uzun yıllar boyunca stabil giden şehirler için doğru olabilir, İstanbul için hatalı bir yaklaşım. Standart sapmalar gösterilmemiş. 

Verileri saklamak bir yana test yapılmadan hayatını kaybedenler ve COVID-19 olduğu halde yanlış tanı konduğu iddia edilen vakalar var. Bu konu yalnız Türkiye'de değil, hastalığın sonuçlarının daha da sert hissedildiği bir çok başka ülkede de tartışma konusu. Örneğin The Economist'in 4 Nisan tarihli haberine göre de İtalya, İspanya ve Fransa'da gözlemlenen ölüm oranları resmi rakamlardan daha yüksek olduğu söyleniyor. CNBC’nin başka haberinde ise İngiltere'de vefat sayısının açıklananlardan %50 daha fazlası olabileceği söyleniyor.

Peki Türkiye için gerçekten de verileri sakladığı ya da tanıları kaçırdığını söyleyebilir miyiz? Verikafası olarak bu durumu verim biliminin araçlarını kullanarak inceledik.

İstanbul Belediyesi Vefat Sorgulama Sistemi ile her gün İstanbul'da ne kadar kişinin vefat ettiği bilgisini yayınlamakta. Dolayısıyla bu veriyi kullanarak pandeminin vefat sayılarına olan etkisini önceki yıllarla karşılaştırmamız mümkün.

Grafikte de gördüğünüz üzere yıllara göre vefat sayısı zaten bir hastalık durumu olmasa da artıyor. Bunun çok basit bir sebebi var. İstanbul yıllarca büyüyen bir şehirdi. Yani eğer biz ölüm sayısını geçen seneyle karşılaştırıp bakın bu sayı hastalık sebebiyle artmış dersek temel bir istatistik hatası yapmış oluruz. Peki ne yapabiliriz?  

SARIMA (Seasonal Autoregressive Integrated Moving Average) zaman serilerinin (time series) mevsimsel komponenti (seasonal component) üzerinde ardışık terimlerin arasında otokorelasyon olduğunu var sayan bir modelleme. Eğer marta kadar olan verilerle bir modelleme yaparsak ve marttan sonraki vefat sayısını tahmin edersek belki de aradaki farkı COVID-19 ile açıklayabiliriz. Aynı zamanda modelin hata payı da bizim için önemli olacak. Böylece acaba biz mi tahminde hata yapıyoruz yoksa COVID-19 gibi dış bir etken mi söz konusu anlayabiliriz.

Yukarıdaki grafikteki kırmızı çizgi bizim eğer bir dış etken söz konusu olmasaydı beklediğimiz vefat sayıları. Beyaz çizgi ise gerçekleşen. Biz analizimizi yapmak için aradaki farkları kullanıyoruz. Vefat artışından kastımız budur.

Fakat bu yeterli değil. Bu fark rastgele de oluşmuş olabilir. Verinin kendisinde zaten çok yüksek bir oranda rastgelelik var. Burada ne kadar hatalı olabileceğimizi söylememiz gerekiyor. Bir standart sapma hata vermeden önce oluşturduğumuz modelin önceki aylar için yaptığı tahminlerin hatalarının QQ-Plot'una bakalım. Bu bize normal dağılım sayılıp sayılamayacağı konusunda bir fikir verecek.

Biraz heavy tail olsa da normal dağılımdan çok da uzak değil. Bu da bize modelin başarılı olduğunu gösteriyor. Model başarısındaki her artış hatalarımızın varyansını düşürürken aynı zamanda normal dağılıma daha çok uymasına yardım edebiliyor. Bu da yapacağımız hata konusunda daha net konuşabilmemizi sağlayacak.

20 Nisan 2020 itibariyle, model normalde yılın bu döneminde beklenenden, 4339 kişi daha fazla vefat ettiğini tahmin ediyor.

Buradaki sayılar İstanbul verilerini kullanarak Türkiye için oluşturulmuştur. İstanbul'un Türkiye'deki COVID-19 vakalarının %60'ını temsil ettiği varsayılmıştır. Açıklanan 2140 rakamın gerçeğin sadece yarısı olma ihtimali bir hayli yüksek.

Bu modelleme ile birlikte bu blog postu için geliştirdiğimiz teyit sayfasında vefat sayılarının olasılık dağılımına erişebilirsiniz. Burada gördüğünüz grafik bize her bir vefat sayısının belli bir rakamdan daha yüksek olma olasılığını gösteriyor. Grafiğin üstündeki sliderı karakterinizin iyimserliğine göre değiştirin. Eğer çok iyimser biriyseniz sliderı en sağa getirip resmî rakamlara güvenebilirsiniz. Bu durumda site size resmî rakamların yanlış olma ihtimalini söyleyecek. Ya da çok kötümserseniz sliderı en sola kaydırıp en kötü ihtimalle COVID-19 kaynaklı kaç kaybımız var anlayabilirsiniz.

Sayfadaki olasılıklar şu anlama geliyor; Türkiye'deki vefat sayısı X olasılıkla Y sayısından yüksek. Slider X'i artırırken Y sayısını azaltıyor. Örneğin 20 Nisan verileri için COVID-19 kaynaklı vefat sayısı %98 ihtimalle açıklanan 2140 sayısından yüksek iken sadece %1 ihtimalle 6764 sayısından yüksek, karamsar biriyseniz en kötü olasılık dilimini kale alıp COVID-19'dan kaynaklı vefat sayısını 6764'dan yüksek olarak alabilirsiniz, ya da iyimser biri iseniz %2'lik dilimle yetinip 2140 olarak açıklanan resmî rakamlara güvenebilirsiniz. Sayfanın linki burada.

1 Mart - 19 Nisan arası dönem için aşağıdaki veriler geçerli:

Vefat Artışı Resmi COVID-19 Vefat Sayısı Fark Fark Standart Sapması
4339 2140 2199 1042

ÖNEMLİ NOT: Bu analiz yüksek miktarda varsayım barındırıyor. Bunlardan bazıları:

Aklınıza gelen itirazlarınızı ve önerilerinizi bize iletebilirsiniz. Mail adresimiz verikafasi@gmail.com.

Bu da ayrıntısını merak edenler için analizin ilk tasarımı