Mesures de dispersion

Après avoir lu cet article, vous en apprendrez davantage sur les diverses mesures de dispersion utilisées dans la recherche en sciences sociales.

En recherche sociale, nous souhaitons souvent connaître l’ampleur de l’homogénéité et de l’hétérogénéité des répondants par rapport à une caractéristique donnée. Tout ensemble de données sociales a des valeurs qui peuvent caractériser l'hétérogénéité. L'ensemble de données sociales est généralement caractérisé par l'hétérogénéité des valeurs.

En fait, la mesure dans laquelle ils sont hétérogènes ou varient entre eux revêt une importance fondamentale en statistique. Les mesures de tendance centrale décrivent généralement une caractéristique importante d'un ensemble de données, mais elles ne nous disent rien sur cette autre caractéristique fondamentale.

Par conséquent, nous avons besoin de moyens pour mesurer l'hétérogénéité - la mesure dans laquelle les données sont dispersées. Les mesures qui fournissent cette description sont appelées des mesures de dispersion ou de variabilité. Les trois distributions suivantes illustrées à la Fig. 18.4 illustreront l’importance de mesurer la dispersion des données statistiques.

Distribution des valeurs moyennes pour des échantillons de différentes tailles :

On peut voir que la moyenne arithmétique de toutes les trois courbes de la figure ci-dessus est la même, mais la distribution des valeurs illustrée par la courbe A présente une variabilité (dispersion) inférieure à celle représentée par la courbe B, tandis que la courbe B présente une variabilité inférieure. par rapport à celle représentée par la courbe C.

Si nous ne considérons que la mesure de la tendance centrale des distributions, nous manquerons une différence importante entre les trois courbes. Pour mieux comprendre la structure des données, nous devons également obtenir la mesure de sa dispersion ou de sa variabilité. Nous allons maintenant examiner diverses mesures de la dispersion.

Intervalle:

La plage est définie comme la différence entre les valeurs les plus élevées et les plus basses: Mathématiquement,

R (plage) = M n - M L

où M n et M l représentent la valeur la plus élevée et la plus basse. Ainsi, pour l’ensemble de données: 10, 22, 20, 14 et 14, la plage correspond à la différence entre 22 et 10, c’est-à-dire 12. Dans le cas de données groupées, on considère la plage comme la différence entre les points médians de l’extrême. Des classes. Ainsi, si le point milieu de l'intervalle le plus bas est 150 et celui du plus haut 850, l'intervalle sera 700.

Le seul avantage de la plage, mesure de dispersion rarement utilisée, est qu'elle peut être facilement calculée et comprise. Malgré cet avantage, ce n’est généralement pas une mesure très utile de la dispersion; son principal inconvénient est qu'il ne nous dit rien sur la dispersion des valeurs intermédiaires entre les deux extrêmes.

Écart de gamme ou de quartile d'un demi-quartile:

Une autre mesure de la dispersion est la plage semi-inter-quartile, connue sous le nom de déviation de quartile. Les quartiles sont les points qui divisent le tableau ou la série de valeurs en quatre parties égales, chacune contenant 25% des éléments de la distribution. Les quartiles sont alors les valeurs les plus élevées dans chacune de ces quatre parties. La plage inter-quartile est la différence entre les valeurs des premier et troisième quartiles.

Ainsi, où et Q 1 et Q 3 représentent les premier et troisième quartiles, l’écart de rang ou de quartile semi-inter-quartile est donné par la formule = Q 3 –Q 1/2

Calcul de la déviation de quartile:

L'écart de quartile est une mesure absolue de la dispersion. Si l’écart quartile doit être utilisé pour comparer les dispersions de séries, il est nécessaire de convertir la mesure absolue en un coefficient d’écart quartile.

Écart moyen :

Les écarts de gamme et de quartile souffrent d'inconvénients graves, c'est-à-dire qu'ils sont calculés en prenant en compte uniquement deux valeurs d'une série. Ainsi, ces deux mesures de dispersion ne sont pas basées sur toutes les observations de la série. En conséquence, la composition de la série est totalement ignorée. Pour éviter ce défaut, la dispersion peut être calculée en prenant en compte toutes les observations de la série par rapport à une valeur centrale.

La méthode de calcul de la dispersion s'appelle la méthode de la moyenne des déviations (déviation moyenne). Comme son nom l'indique clairement, il s'agit de la moyenne arithmétique des écarts de divers éléments par rapport à une mesure de tendance centrale.

Comme nous le savons bien, la somme des écarts par rapport à une valeur centrale serait toujours égale à zéro. Cela suggère que pour obtenir une déviation moyenne (de la moyenne ou de l'une des valeurs centrales), nous devons d'une manière ou d'une autre nous débarrasser de tout signe négatif. Cela se fait en ignorant les signes et en prenant la valeur absolue des différences.

Dans notre exemple hypothétique, la moyenne des nombres 12, 14, 15, 16 et 18 est de 15. Cela signifie que la différence de 15 de chacun de ces chiffres, en ignorant les signes tout du long et en additionnant les résultats, nous obtiendrons le total déviation.

En le divisant par 5, nous obtenons:

= 1.6 (où | d | représente la somme des déviations absolues).

On peut donc dire qu'en moyenne, les scores diffèrent de 1, 6 par rapport à la moyenne.

Calcul de la déviation moyenne en date non groupée (observations individuelles):

Calcul de la déviation moyenne en série continue:

Coefficient de déviation moyenne :

Pour comparer l'écart moyen des séries, le coefficient d'écart moyen ou l'écart moyen relatif est calculé. Ceci est obtenu en divisant l'écart moyen par la mesure de la tendance centrale à partir de laquelle les écarts ont été calculés. Ainsi,

Coefficient de moyenne. Déviation / X

En appliquant cette formule à l'exemple précédent, nous avons,

Coefficient de déviation moyenne = 148/400 = 0, 37

Écart type :

La mesure de la dispersion la plus utile et la plus utilisée est l’écart-type ou l’écart entre la moyenne fondamentale et la moyenne. L’écart type est défini comme la racine carrée de la moyenne arithmétique du carré des écarts par rapport à la moyenne. Symboliquement,

σ = √Σd 2 / N

où σ (lettre grecque Sigma) représente l'écart type, Σd 2 la somme des carrés des écarts mesurés à partir de la moyenne et N pour le nombre d'éléments.

Calcul de l'écart type dans une série d'observations individuelles:

Méthode de raccourci:

Calcul de l'écart type dans les séries discrètes :

Dans une série discrète, les écarts par rapport à une moyenne supposée sont d’abord calculés et multipliés par les fréquences respectives des items. Les écarts sont carrés et multipliés par les fréquences respectives des éléments. Ces produits sont totalisés et divisés par le total des fréquences. L’écart type est calculé à l’aide de la formule suivante:

L'illustration suivante expliquerait la formule:

Calcul de l'écart type dans une série continue :

Dans une série continue, les intervalles de classe sont représentés par leurs points médians. Cependant, les intervalles de classe ont généralement la même taille et, par conséquent, les écarts par rapport à la moyenne supposée sont exprimés en unités d'intervalle de classe. On peut également arriver à des écarts de pas en divisant les écarts par la magnitude de l'intervalle de classe.

Ainsi, la formule de calcul de l'écart type s'écrit:

où i représente le facteur commun ou la magnitude de l'intervalle de classe.

L'exemple suivant illustre cette formule:

Coefficient de variation:

L'écart-type représente la mesure de la dispersion absolue. Il est également nécessaire de mesurer la dispersion relative de deux distributions ou plus. Lorsque l'écart type est lié à la moyenne, il mesure la dispersion relative. Karl Pearson a mis au point une mesure simple de la dispersion relative, généralement appelée coefficient de variation.

Le coefficient de variation du problème présenté dans le tableau 18.47 est le suivant: