Medyan

Medyan (ya da ortanca) bir anakütle ya da örneklem veri serisini küçükten büyüğe doğru sıraladığımızda, seriyi ortadan ikiye ayıran değere denir. İstatistiğin bir alt dalı olan betimsel istatistikde medyan bir merkezsel konum ölçüsü kabul edilir.[1]

Merkezsel konum olarak medyan

Bir olasılık dağılımı simetrik olmayıp, çarpıklık gösteriyorsa, medyan, aritmetik ortalamadan daha uygun bir merkezsel konum ölçüsüdür. Simetrik olmama, sıralanmış veri değerleri için ya en küçük değerlerin ya da en büyük değerlerin diğerlerinden çok daha fazla uzaklaşması ile ortaya çıkar. Bu beklenmedik küçük veya büyük değerlere aykırı değer (outlier) adı verilir. Eğer veri dağılımı asitmetrik olan aykırı değerler kapsıyorsa, medyan aritmetik ortalamaya nazaran daha güçlü (robust) bir merkezsel konum ölçüsü halini alır.

Medyan değeri hesaplanması

Veri sayıları küçükten büyüğe doğru sıralandıktan sonra, n gözlem sayısı olmak üzere, medyan değerinin bu seri içindeki sıra numarası şu şekilde bulunur:

M e d y a n p o z i s y o n u = ( n + 1 ) 2 {\displaystyle Medyanpozisyonu={\frac {(n+1)}{2}}}

Eğer gözlem sayısı tek ise medyanın sıra numarası bir tam sayı olacaktır ve doğrudan medyan bulunur. Eğer gözlem sayısı çift ise medyanın sıra numarası ½ li bir sayı çıkar. Bu durumda bu sayının etrafındaki iki değerin aritmetik ortalaması medyandır.

Örnek

1,3,4,5,7,8,13 dizisinin medyanı 4. sıradaki eleman olan 5'tir.

2,4,6,8 dizisinin medyan pozisyonu 2.5'tir. Bu durumda 2. ve 3. elemanların aritmetik ortalaması yani (4+6)/2=5 medyan değeridir.

Gözlem sayısı küçükse, gözlem değerlerinin sıralaması elle kolay olarak yapılabilmekte ve bu hesaplama kolaylığı merkezsel konum ölçüsü olarak medyanın tercih edilmesine bir neden olmaktadır. Ancak gözlem sayısı n artıkça, sıralama işlemleri gittikçe zorlaşmaktadır; ayrıca basit el hesap makinaları ile sıralama yapmak imkanı olmamaktadır. Bilgisayar kullanılmadan ve elle yapılan işlemler kullanarak büyük gözlem sayılı verilerinin sıralanması zorluğu nedeni ile medyan büyük veri kullanılması gerektiren araştırmalarda kullanılmamıştır. Ama bilgisayarların gelişmesi ile medyan kullanılmasının bu dezavantajı kaybolmuştur. Bilgisayarla yapılan veri sıralanması için, özellikle çok büyük gözlem sayıda veri için özel hızlı sıralama algoritmaları kullanılmaktadır. Bu sıralama algoritmalarında genellikle (n log n) işlem yapılmaktadır ama özel böl ve fethet algoritması kullanılması ile sadece n işlem gerekmektedir.

Çokluk dağılımları için medyan değerinin hesaplanması

Veri değerleri gruplanmış ve çokluk dağılımları olarak verilmişler ise, medyan, gözlem sayısında N/2 inci değerin denk düştüğü sınıftadır ve interpolasyon ile ortaya çıkartılan formülü şu şekilde verilir:

M e d y a n = L + c f ( N 2 d ) {\displaystyle Medyan=L+{\frac {c}{f}}\left({\frac {N}{2}}-d\right)}
  • L: Medyan sınıfın alt değeri
  • c: Medyan sınıfın aralığı
  • f: Medyan sınıfın frekansı
  • N: Toplam birim sayısı
  • d: Medyan sınıftan bir önceki sınıfın birikimli frekansı.

Olasılık dağılımları için medyanlar

Reel doğrusu üzerinde olan ve F fonksiyonu ile ifade edilen yığmalı dağılım fonksiyonu gösteren herhangi bir olasılık dağılımı için, kesikli veya sürekli olması özelliğine bakılmadan, medyan değeri m şu eşitsizlik ifadelerine her zaman uyar:

P ( X m ) 1 2 P ( X m ) 1 2 {\displaystyle \operatorname {P} (X\leq m)\geq {\frac {1}{2}}\quad \land \quad \operatorname {P} (X\geq m)\geq {\frac {1}{2}}\,\!}

veya

m d F ( x ) 1 2 m d F ( x ) 1 2 {\displaystyle \int _{-\infty }^{m}\mathrm {d} F(x)\geq {\frac {1}{2}}\quad \land \quad \int _{m}^{\infty }\mathrm {d} F(x)\geq {\frac {1}{2}}\,\!}

Belirli parametreleri olan belirli dağılımların medyanları hakkında şunlar söylenebilir:

  • Ortalama değeri μ ve varyansı σ2 olan bir normal dağılım için medyan değeri μ olur. Gerçekten normal dağılım simetrik çan şeklinde olduğundan ortalama=medyan=mod olur.
  • [a b] aralığında bulunan bir sürekli tekdüze dağılım için medyan değeri (a + b) / 2 olup bu ortalama değerine de eşittir.
  • Konum parametresi x0 ve ölçek parametresi y de x0 olan Cauchy dağılımı için medyan değeri konum parametresine eşittir.
  • Şekil parametresi k ve ölçek parametresi λ {\displaystyle \lambda } olan bir Weibull dağılımı için medyan değeri λ ( ln 2 ) 1 / k {\displaystyle \lambda (\ln 2)^{1/k}} olur.

Özellikleri

  • Optimal olma özelliği

Medyan, mutlak dağılmaların ortalamalarının en küçük değerini bulan bir merkezsel noktadır. Olasılık kuramının özel terimlerine göre

E ( | X c | ) {\displaystyle E(\left|X-c\right|)\,}

ifadesini en küçük yapan c değeri için, X rassal değişkenin olasılık dağılımının medyanıdır. Dikkat edilmesi gerekir ki, c her zaman tek değildir ve onun için genellikle kesinlikle tanımlanamaz.

  • Sürekli bir olasılık dağılımı için, medyan sayı değeri ile ortalama sayı değeri arasında bir standart sapmaya eşit bir fark vardır.
  • Medyan 2inci dörttebirlik, 5inci ondabirlik ve 50inci yüzdebirlik'e eşittir.
  • Genellikle medyan bir yanlı kestirimcidir.

Ayrıca bakınız

Kaynakça

  1. ^ İstatistik. 3.baskı. Yüzer, Ali Fuat. Eskişehir: Anadolu Üniversitesi. 2006. ss. 48-53. ISBN 975-06-0183-1. OCLC 567334808. 
  • g
  • t
  • d
Betimsel istatistik
Sürekli veriler
Merkezî konum
Ortalama (Aritmetik, Geometrik, Harmonik) • Medyan • Mod
Yayılma
Dağılım şekli
Varyans • Çarpıklık • Basıklık • Moment (matematik)
İstatistiksel tablolar
Sıklık dağılımı  • Çoklu sayılı özetleme tabloları  • İlişki tablosu  • Çoklu-yönlü sınıflandırma tabloları
İstatistiksel grafikler
Dairesel grafik • Çubuk grafiği • Kutu grafiği • Dal-yaprak grafikleri •Kontrol diyagramı • Histogram • Sıklık çizelgesi • Q-Q grafiği • Serpilme diyagramı
Veri toplama
Örnek tasarımı
Deneysel tasarım
Anakütle • İstatistiksel deneysel tasarım tipleri  • Deneysel hata  • Yineleme • Bloklama • Duyarlılık ve belirleme
Örneklem kavramları
Örneklem büyüklüğü • Sınama gücü  • Etki büyüklüğü • Örnekleme dağılımı •Standart hata
Çıkarımsal istatistik
ve
İstatistiksel kestirim ve testler
Çıkarımsal analiz tipleri
Kestirim  • Parametrik çıkarımsal analiz  •Parametrik olmayan çıkarımsal analiz  • Bayesci çıkarımsal analiz  • Meta-analiz
Çıkarımsal kestirim
Genel kestirim kavramları
Momentler yöntemi • Enbüyük olabilirlik • Enbüyük artçıl  • Bayes-tipi kestirimci • Minimum uzaklık • Maksimum aralık verme
Tekdeğişkenli kestirim
Kestirim  • Güven aralığı  • İnanılır aralık
Hipotez testi
İstatistiksel test ana kavramları
Sıfır hipotez  • I.Tür ve II.Tür hata  • Anlamlılık seviyesi  •p-değeri
Basit tek-değişkenli ve iki-değişkenli
parametrik hipotez testi
μ için testi •

π için test • μ12 için test • π12 için test  •

σ12 için test
Tek-değişkenli ve iki-değişkenli
parametrik olmayan test analizi
Medyan testi  • Ki-kare testi • Pearson ki-kare testi •Phi katsayısı  • Wald testi • Mann-Whitney U testi • Wilcoxon'in işaretli sıralama testi
Korelasyon
ve
Regresyon analizi
Korelasyon
Doğrusal regresyon
Regresyon analizi  • Doğrusal model • Genel doğrusal model • Genelleştirilmiş doğrusal model
Doğrusal olmayan regresyon
Parametrik olmayan • Yarıparametrik • Logistik
Varyans analizi
Tek-yönlü varyans analizi • Kovaryans analizi • Bloklu tek-yönlü varyans analizi • Etki karışımı değişkeni
Çokdeğişkenli istatistik
Çokdeğişkenli regresyon • temel bileşenler · Faktör analizi  •Kanonik korelesyon  • Uygunluk analizi  • Kümeleme analizi
Zaman serileri analizi
Yapısal model tanımlanması
Zaman serisi yapisal model ögeleri  • Zaman serisi ögeleri saptanması  • Zaman grafiği • Korrelogram
Zaman serileri kestirim teknik ve modelleri
Dekompozisyon • Trend uygulama kestirimi  • Üssel düzgünleştirme  • ARIMA modelleri  • Box–Jenkins  • Spektral yoğunluk kestirimi
Kestirim değerlendirmesi
Zaman seri kestirim değerlendirmesi
Sağkalım analizi
Sağkalım fonksiyonu • Kaplan–Meier • Log-sıra testi • Başarısızlık oranı • orantılı tehlikeler modeli
Kategori • Outline • Endeks