0224 232 22 73
info@sigmacenter.com.tr
LinkedinYoutubeInstagramFaceBookTreads
logo

Danışmanlık

Eğitim

Yazılımlar

Hakkımızda

Data Nasıl Bilgiye Dönüştürülür ?

Evrendeki her şeyi ikiye böldüğümüzde değişenler ve değişmeyenler olarak tanımlama yapabiliriz. Ancak bu tanımlama işleminin pek adil bir dağılım olmadı hemen gözümüze çarpıyor. Değişmeyen şeyler tahmin ettiğimiz gibi çok azdır. Bunlar; Bir takım matematiksel formüller, bilimin temel taşları yahut tüm canlıların ölümlü olduğu gibi kaçınılmaz gerçeklerdir. Bizim üzerinde duracağımız konu ise değişen şeylerdir. Her gün, her saat, belki her saniye değişkenlik gösteren iş dünyasında kafamızı kurcalayan üstünde uğraştığımız değişkenler. Bunları şimdilik bağımsız ve bağımlı konumuna koyalım. FX formülü burada geçerli olmakta. Bir takım bağımsız değişkenler bağımlı değişkeni etkiler, sonucu etkiler. X de Y de Datadır bizim asıl konumuz da Data.

Örneğin, 127 sayısını söylediğimizde bu da bir bilgidir ancak çok eksik bir bilgidir. 127 ancak bir endeks ise yahut bilimsiz bir ifade ise yahut aramızdaki daha evvelki konuşmalarda anlam ifade ediyorsa bir değer kazanır. Değilse hemen ‘Ne?’ Sorusunu sorarız. 127 kilo ne? 127 kilogram dediğimiz takdirde en azından Dünyanın başka bir tarafındaki bir insana aynı şeyi söylüyor oluruz. 127 kilogram hemen hemen Dünyanın her yerinde 127 kilogramdır. Ama bilgi hala yetersiz 127 kilogram ne? diye sorduğumuzda domates ise artık bundan sonraki sorularımız teferruata girer. Bunun kaç kasa olduğunu, bagaja sığıp sığmayacağını düşünmeye başlarız. 127 kilogram araba ise bu bizde bir şaşkınlık yaratır. Olmaz ya gibi bir cevap veririz. Veri, bilgidir. Bu bilginin sayısal kısmı var, açıklama kısmı var, hem de birim kısmı var dolayısıyla bilginin tamam olması için biraz daha küsurata, teferruata ve açıklamaya ihtiyaç duyabiliyoruz.

Data Nedir?

Peki, nedir Data en basit tanımıyla bilgi ama ölçülebilen, sayılabilen yahut sınıflandırılabilen bilgi yani eğer ölçebiliyorsak, sayabiliyorsak bir takım kategorilere koyabiliyorsak o bilgiyi, ham haliyle de olsa işimize yarayacaktır. Örneğin zaman, para, tüm boyutlar, uzunluk, ağırlık, yüzde ifadeler yani küsuratlı olabilecek her şey aslında ölçülebilir sürekli veri konumundadır. Bazı şeyler küsuratlı olmaz, adet olarak sayarız buda bizim için bilgidir sayısal bir ifadedir. Bir de pratiklik açısından geçer mi, kalır mı yahut hangi kategoriye girer diye bilgiyi sınıflandırabiliriz. Bu da işimize yarıyor ancak en makbul veri ölçülebilir veri, sürekli veridir. Çünkü onda kullanacağımız araçlar daha zengindir. Eğer niteliksel veriye sadece kategorik veriye kalırsak araçlarımız kısıtlanır.

Sayma ihtiyacı bu saydığı bilgiyi birisine aktarma ihtiyacı insanlık kadar eskidir ve bu konuda ilk kullandığımız araçlar parmaklarımızdır. Yani kendisini kaç tane aslanın kovaladığını söylemek isteyen ilkel bir insan herhalde ellerini kullanarak bunu ifade ediyordu. Bilinen tarihi en eski yazı aslında ticari kayıtlardır. Örneğin sayılan mallar, kilogramları ve adetleri gibi. Belki daha sonra taşlar, çomaklar kullanıldı saymak için. Sayılardan bahsettiğimizde Romalılara kadar geliyoruz. Romalılar çok uzun yıllar Dünyaya hakim olmuş, bir çok bayındırlık işlerine imza atmış bir medeniyet. Bu büyük medeniyette bir sıkıntı var. Sıfırı bilmedikleri için doğru dürüst hesaplama yapamıyorlar ama sayma ihtiyaçları var. İmparatorluğun her tarafından gelen askerlerin donatılması lazım. Askerlerin miğfer boyları, ayakkabı boyları derken bir ölçme ve ona göre üretme ihtiyacı doğuyor. Dolayısıyla Romalılar daha sonra niye olduğunu keşfettikleri için tek sayılı bir gruba alıyorlar ve ona minimum, maksimum şeklinde bir uç nokta tanıyorlar en ortadaki medyan oluyor, minimum ile maksimum arası aralık oluyor, en sık rastlanan da mod oluyor. Roma döneminde tanımlanan bu ifadeler günümüzde hala aynı şekilde tanımlanmaktadır. Bugün minimum, maksimum artık Türkçemize yerleşmiş kelimelerdir. Midyum yahut medyan yahut meydan, medya, medyum gibi rakamlar hep ortadakini ifade ediliyor. Mod da günümüze moda olarak gelmiş. Minimum, maksimum, aralık, medyan, mod bugün de sıklıkla kullandığımız pratik araçlar. Neyi anlamaya yarıyor? Bir grubu anlamaya yarıyor. Çünkü aslında daha geçerli olan, daha hassas olan ortalama almaktı yani insanların kafa ölçülerini alırsınız, onun aritmetik ortalamasını alırsınız o bu grubu temsil eden ortadaki ifadedir, ortalamadır. Sıfırın olmadığı durumlarda kullanılan bu araçlar hala pratiklik açısından günümüzde geçerlidir.

İstatistik bilgilerde verinin oluşumu ile ilgili iki tane temel olay mevcuttur. Bir tanesi verinin yığıldığı nokta, bir tanesi de yayılması. Şöyle bir kum tepesi düşünelim, bunun yığıldığı nokta orta noktasıdır. En yüksek olduğu noktadır. Yayılması da artık kumun içindeki neme bağlı olarak ya daha dik ya da daha yayvan olacaktır ama bir yayılma hali de vardır. Veride de hep buna bakacağız, yani elimize geçen veri bir grup halinde gelecek onun yığılma noktaları ve yayılma özelliği bizim için ilginç olacak. Nerede yayılmış? Nasıl yayılmış? Sorularının cevaplarını aramalıyız.

Sıfırın bulunmasıyla şimdi elimizde daha güçlü bir ortalama alma aracı var. Basit aritmetik ortalama, ağırlıklı ortalama ve bunların kullanım alanları. Özellikle de ağırlıklı ortalamaya dikkatinizi çekeceğim. Basit aritmetik ortalama daha çok kullandığımız yöntem olmasına rağmen ağırlıklı ortalama daha hassas bilgi verir. Çünkü ortalamasını aldığımız şeylerin önemleri farklı olabilir. Örneğin 3 tane hava yolu olsun, bunların zamanında kalkış yüzdeleri olsun yani 100 uçuştan 70 tanesinde zamanında kalkmış alfa air, beta air bunun %80 oranında gerçekleştirmiş, teta air de %90 oranında kalkış gerçekleştirmiş. Burada basit ortalama aldığımız zaman değer 80 çıkacaktır.

Yani (70+80+90)/3 bize 80 verecektir. Ancak şöyle bir gerçek vardır, bu hava yollarının büyüklükleri aynı değildir. Alfa air günde 1000 uçuş yapıyor, Beta air 400, Teta air 100 uçuş yapıyor. Dolayısıyla bunların ağırlıkları farklıdır. Bunları da hesaba katıp gerçek anlamda toplam zamanında kalkış rakamını bulabiliriz. Bu da nedir? Alfa air için 1000 uçuş yapmış toplam 1500 uçuştan dolayısıyla o bir ağırlık oluşturuyor onu 0.7 ile çarpıyoruz 400/1500 Beta air’in yaptığı uçuşların ağırlığı aynı şekilde Teta air’i de hesap edersek ve bunları toplarsak %74 buluyoruz. Yani ağırlıklı ortalama her zaman basit aritmetik ortalamadan üstündür. Sadece eğer ağırlıklar aynı ise ikisi aynı sonucu verecektir.

Yığılma özelliği olarak ortalamayı önemsiyoruz ve öne çıkarıyoruz yayılma özelliği olarak da standart sapmayı kullanacağız. Şöyle ki bir grup alalım 10 kişinin olduğu ve yaşlarına göre bunları sıraya dizelim. Ali amca 52 yaşında, Jale hanım 22 yaşında bunlar minimumlarımız ve maksimumlarımız olsun. Bu ikisi arasında fark da aralığı göstermektedir. Yani 30 yıllık bir yaş aralığı içinde dağılmış grup en sık rastladığımız yaş Giray, Halip ve İsmet’in yaşları 26’dır, o Mod oluyor. Dikkat ediyorsanız Mod farklı noktalarda yayılabilir. Şimdi tek olsaydı ortada birisi olacaktı. Tek sayılı bir grup olsaydı ama 10 olduğu için tam ortada bir kimse yok sanal birisi var o da 33 değil 28’in ortalaması medyan oluyor ama eğer bir yığılma tanımı istiyorsak en güzeli ortalama oluyor. Toplam 340 yılı 10 kişiye böldüğümüz zaman 34 yaş çıkıyor.

Yani 34 yaşında bir insan, 34 yaşıyla bu grubu temsil ediyor.

Ancak şöyle bir sıkıntı var 34 grup içinde yok hemen hemen herkesin 34 ten bir uzaklığı var dolayısıyla bu temsil yeteneğini sorgularken Datanın yayılmasına da bakıyoruz. Yani öncelikle ortalamadan herkesin yaşını çıkarıyoruz. Başlarda bu eksi rakam oluyor yani 34-52 oluyor -18, -13 diye gidiyor. Sonra artılara geçiyor. Şimdi üşenmeyip bunu toplarsak bunların toplamının 0 olduğunu göreceğiz. Çünkü zaten ortalama böyle bir şey öyle bir sayı ki bunun sağında kalanlarla solunda kalanların büyüklükleri birbirlerini götürüyor. Halbuki bizim şuan aradığımız şey 34 ten olan uzaklıklar yani yayılma özelliği burada mutlak değeri alabilirdik fakat onun yerine daha yaygın kullanılan yöntem bu farkın karesini almak yani -18 karesini aldığımızda (-) işaretinden kurtarıyoruz. Yalnız burada farkı da biraz mübalağa etmiş oluyoruz, yükseltmiş oluyoruz karesi ile çarparak elimize bir rakam geçiyor bunları topladığımızda fark kareleri toplamı 970 bunu birim sayısına bölüyoruz, 10 kişiye bölüyoruz buradan varyans çıkıyor. Bunun karekökünü aldığımız zaman da 9.85 diye bir rakama ulaşıyoruz. İşte standart sapma bu standart sapmanın birimi de yıl yani ortalamanın birimi ile aynı ortalama, yığılmayı gösteriyor. Standart sapma da yayılmayı gösteriyor. Sonra her birinin ortalamadan olan farkını alıyoruz bunun karesini alıp işaretten kurtarıyoruz toplamı ss ediyor standart sapmanın dedesi, ortalaması 97 ediyor o da standart sapmanın babası diyelim en sonda da standart sapma karekökü alınarak varyansın elde edilen rakam yayılmanın kendisi oluyor diyelim. Buradaki hesaplamalar kafanızı karıştırmış olabilir ama dikkatinizi çekmek istediğimiz nokta tanımların ne ifade ettiği ve yüzeysel olarak nasıl hesaplama yapılacağını size gösterebilmek.

Biraz evvelki kum tepesine bakacak olursak hızlı bir şekilde gördüğümüz yayılma ve yığılma özelliklerini bir kez daha hatırlayalım. Ortalama yığılmayı gösterir ve en çok kullanılan göstergedir. Bir verinin yığıldığı noktayla ilgili olarak medyan, mod da gene yığılma noktalarını gösterir. Yayılmayı ne gösteriyor? Re izlediğimiz aralık yani minimum ile maksimum arasındaki fark, ss dediğimiz fark kareleri toplamı, varyans ve standart sapma yani hem yığılma hem yayılmayı gösteren araçlar olarak tanımlanmaktadır.

Günümüzde DATA herşeydir. Datanın ne anlama geldiğini, nasıl değerlendirmemiz gerektiğini bilmemiz gerekir. Datayı kullanamıyorsak, bir anlam çıkaramıyorsak, datayı kullanarak planlama yapamıyorsak data sadece sayıdır, bir anlam ifade etmez. datayı bilgiye çevirmek için minimum, maximum, mod, medyan, aralık, standart sapma ve varyans tanımlarının ne anlama geldiğini ve nasıl kullanmamız gerektiğini bilmemiz gerekmektedir.