4 mesures de dispersion couramment utilisées

Il existe quatre mesures couramment utilisées pour indiquer la variabilité (ou dispersion) dans un ensemble de mesures. Ce sont: 1. Plage 2. Déviation par quartile 3. Déviation moyenne 4. Déviation standard.

Mesure n ° 1. Plage:

La plage est l'intervalle entre le score le plus élevé et le plus bas. La gamme est une mesure de la variabilité ou de la dispersion des variables ou des observations entre elles et ne donne pas une idée de la dispersion des observations autour d’une valeur centrale.

Symboliquement, R = Hs - Ls. Où R = Plage;

Hs est le «score le plus élevé» et Ls est le score le plus bas.

Calcul de la plage (données non groupées):

Exemple 1:

Les scores de dix garçons à un test sont:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Exemple 2:

Les scores de dix filles à un test sont:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

Dans l'exemple I, le score le plus élevé est 77 et le score le plus bas est 17.

Donc, la plage est la différence entre ces deux scores:

. . . Plage = 77 - 17 = 60

De manière similaire, dans l'exemple II

Plage = 62 - 48 = 14

Nous constatons ici que les scores des garçons sont très dispersés. Ainsi, les scores des garçons varient beaucoup, mais les scores des filles ne varient pas beaucoup (bien sûr, ils varient moins). Ainsi, la variabilité des scores des garçons est supérieure à la variabilité des scores des filles.

Calcul de la plage (données groupées):

Exemple 3:

Trouvez la plage de données dans la distribution suivante:

Solution:

Dans ce cas, la limite vraie supérieure de la classe la plus élevée 70-79 est Hs = 79, 5 et la limite vraie inférieure de la classe la plus basse 20-29 est Ls = 19, 5.

Par conséquent, la plage R = Hs - Ls

= 79, 5 - 19, 5 = 60, 00

La plage est un indice de variabilité. Lorsque la plage est plus le groupe est plus variable. Plus la plage est petite, plus le groupe est homogène. L'étendue est la mesure la plus générale de la «dispersion» ou de la «dispersion» des scores (ou mesures). Lorsque nous souhaitons faire une comparaison approximative de la variabilité de deux groupes ou plus, nous pouvons calculer la plage.

La plage comparée ci-dessus est sous forme brute ou constitue une mesure absolue de la dispersion et est impropre à des fins de comparaison, en particulier lorsque les séries sont en deux unités différentes. À des fins de comparaison, le coefficient de plage est calculé en divisant la plage par la somme des éléments les plus grands et les plus petits.

Avantages:

1. La plage peut être calculée assez facilement.

2. C'est une mesure de dispersion la plus simple.

3. Il est calculé lorsque nous voulons faire une comparaison approximative de deux graphiques ou plus de la variabilité.

Limites:

1. L’étendue n’est pas basée sur toutes les observations de la série. Il ne prend en compte que les cas les plus extrêmes.

2. Cela nous aide à ne faire qu'une comparaison approximative de deux ou plusieurs groupes de variabilité.

3. La plage prend en compte les deux scores extrêmes d'une série.

Ainsi, lorsque N est petit ou que la distribution de fréquence présente de grands écarts, l’étendue comme mesure de la variabilité est assez peu fiable.

Exemple 4:

Partitions du groupe A - 3, 5, 8, 11, 20, 22, 27, 33

Ici, la plage = 33 - 3 = 30

Partitions du groupe B - 3, 5, 8, 11, 20, 22, 27, 93

Ici, la plage = 93 - 3 = 90.

Il suffit de comparer les séries de scores des groupes A et B. Dans le groupe A, si un score unique 33 (le dernier score) est remplacé par 93, la plage est largement modifiée. Ainsi, un seul score élevé peut augmenter la plage allant de faible à élevé. C'est pourquoi la plage n'est pas une mesure fiable de la variabilité.

4. Il est très affecté par les fluctuations de l'échantillonnage. Sa valeur n'est jamais stable. Dans une classe où normalement la taille des élèves varie de 150 cm à 180 cm, si un nain dont la hauteur est de 90 cm est admis, la plage s'élèverait de 90 cm à 180 cm.

5. La gamme ne présente pas vraiment la série et la dispersion. Une distribution asymétrique et symétrique peut avoir la même plage mais pas la même dispersion. Il est d'une précision limitée et doit être utilisé avec prudence.

Cependant, il ne faut pas oublier que la plage est une mesure approximative de la dispersion et est tout à fait inappropriée pour des études précises.

Mesure n ° 2. Déviation par quartile:

La plage est l'intervalle ou la distance sur l'échelle de mesure qui inclut 100% des cas. Les limites de la plage sont dues à sa dépendance aux deux valeurs extrêmes uniquement.

Certaines mesures de dispersion sont indépendantes de ces deux valeurs extrêmes. Le plus commun de ceux-ci est l’écart du quartile qui est basé sur l’intervalle contenant les 50% centraux des cas dans une distribution donnée.

L'écart par quartile est égal à la moitié de la distance d'échelle entre le troisième quartile et le premier quartile. C'est la gamme semi-interquartile d'une distribution:

Avant de prendre la déviation du quartile, nous devons connaître la signification des quarts et des quartiles.

Par exemple, un test génère 20 scores et ces scores sont classés par ordre décroissant. Divisons la distribution des partitions en quatre parties égales. Chaque partie présentera un «quart». Dans chaque trimestre, il y aura 25% (ou 1/4 de N).

Comme les partitions sont classées par ordre décroissant,

Les 5 meilleurs scores seront au 1er trimestre,

Les 5 prochains scores seront au 2e trimestre,

Les 5 prochains scores seront au 3ème trimestre, et

Et les 5 plus bas scores seront au 4ème trimestre.

Afin de mieux étudier la composition d’une série, il peut être nécessaire de la diviser en trois, quatre, six, sept, huit, neuf, dix ou cent parties.

Habituellement, une série est divisée en quatre, dix ou cent parties. Un élément divise la série en deux parties, trois en quatre (quartiles), neuf en dix (déciles) et quatre-vingt-dix-neuf en cent (centiles).

Il y a donc trois quartiles, neuf déciles et quatre-vingt-dix-neuf centiles dans une série. Le deuxième quartile, ou le cinquième décile ou le 50e centile est la médiane (voir la figure).

La valeur de l'élément qui divise la première moitié d'une série (avec des valeurs inférieures à la valeur de la médiane) en deux parties égales est appelée le premier quartile (Q 1 ) ou le quartile inférieur. En d'autres termes, Q 1 est un point en dessous duquel se situent 25% des cas. Q 1 est le 25ème centile.

Le deuxième quartile (Mdn) ou le quartile moyen est la médiane. En d’autres termes, c’est un point en dessous duquel se situent 50% des scores. Une médiane est le 50ème percentile.

La valeur de l'élément qui divise la dernière moitié de la série (avec des valeurs supérieures à la valeur de la médiane) en deux parties égales est appelée le troisième quartile (Q 3 ) ou le quartile supérieur. En d'autres termes, Q 3 est un point en dessous duquel se situent 75% des scores. Q 3 est le 75ème centile.

Remarque:

Un étudiant doit clairement faire la distinction entre un quart et un quartile. Le quart est une gamme; mais quartile est un point sur l'échelle. Les trimestres sont numérotés de haut en bas (ou du score le plus élevé au score le plus bas), mais les quartiles sont numérotés de bas en haut.

La déviation de quartile (Q) est égale à la moitié de la distance d’échelle entre le troisième quartile (Q 3 ) et le premier quartile (Q 1 ):

L = limite inférieure du ci où Q 3 est situé,

3N / 4 = 3/4 de Nor 75% de N.

F = total de toutes les fréquences inférieures à 'L',

fq = fréquence du ci sur laquelle Q 3 est situé et i = taille ou longueur du ci

L = limite inférieure du ci où Q 1 est situé,

N / 4 = un quart (ou 25%) de N,

F = total de toutes les fréquences inférieures à 'L',

fq = fréquence du ci sur laquelle Q 1 est situé,

et i = taille ou longueur de ci

Gamme interquartile:

La plage entre le troisième quartile et le premier quartile est appelée plage inter-quartile. Intervalle intercellulaire symboliquement = Q 3 - Q 1 .

Gamme semi-interquartile:

C'est la moitié de la distance entre le troisième quartile et le premier quartile.

Ainsi, SI R. = Q 3 - Q 1/4

La déviation Q ou quartile est également connue sous le nom de plage semi-interquartile (ou SIR)

Ainsi, Q = Q 3 - Q 1/2

Si nous comparons la formule de Q 3 et Q 1 à la formule de la médiane, les observations suivantes seront claires:

je. En cas de médiane, nous utilisons N / 2, alors que pour Q 1, nous utilisons N / 4 et pour Q3, nous utilisons 3N / 4.

ii. En cas de médiane, nous utilisons fm pour désigner la fréquence de ci sur laquelle se situe la médiane; mais dans le cas de Q 1 et Q 3, nous utilisons fq pour désigner la fréquence de ci sur laquelle Q 1 ou Q 3 est situé.

Calcul de Q (données non groupées):

Afin de calculer Q, nous devons d'abord calculer Q 3 et Q 1 . Q 1 et Q 3 sont calculés de la même manière que nous calculions la médiane.

Les seules différences sont:

(i) dans le cas de la médiane, nous comptions 50% des cas (N / 2) à partir du bas, mais

(ii) dans le cas de Q 1, nous devons compter 25% des cas (ou N / 4) à partir du bas et

(iii) dans le cas de Q 3, nous devons compter 75% des cas (ou 3N / 4) à partir du bas.

Exemple 5:

Découvrez Q des scores suivants: 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Il y a 20 partitions.

25% de N = 20/4 = 5

Q 1 est un point en dessous duquel se situent 25% des cas. Dans cet exemple, Q 1 est un point en dessous duquel se trouvent 5 cas. La simple inspection des données ordonnées permet de constater que, dans 24 cas, il y a 5 cas. Donc Q 1 = 24, 5

De même, Q 3 est un point en dessous duquel se situent 75% des facilités.

75% de N = 3/4 x 20 = 15

Nous constatons que ci-dessous 34.5, 15 cas ment

Donc Q 3 = 34, 5.

Dans une distribution symétrique, la médiane se situe à mi-chemin sur l’échelle de Q 1 et Q 3 . Par conséquent, la valeur Q 1 + Q ou Q 3 - Q donne la valeur de la médiane. Mais, généralement, les distributions ne sont pas symétriques et Q 1 + Q ou Q 3 - Q ne donneraient donc pas la valeur de la médiane.

Calcul de Q (Données groupées):

Exemple 6:

Les scores obtenus par 36 étudiants lors d’un test sont indiqués dans le tableau. Trouvez la déviation du quartile des scores.

Dans la colonne 1, nous avons pris la classe Interval, dans la colonne 2, nous avons pris la fréquence, et dans la colonne 3, les fréquences cumulées à partir du bas ont été écrites.

Ici, N = 36, donc, pour Q 1, nous devons prendre N / 4 = 36/4 = 9 cas et pour Q 3, nous devons prendre 3N / 4 = 3 x 36/4 = 27 cas. En regardant dans la colonne 3, cf = 9 sera inclus dans ci-dessous 55 - 59, dont la limite réelle est 54, 5 - 59, 5. Q1 se situerait dans l'intervalle 54, 5 - 59, 5.

La valeur de Q 1 doit être calculée comme suit:

Pour calculer Q 3, cf = 27 sera inclus dans ci 65 - 69, dont les limites réelles sont 64. 5 - 69.5. Donc, Q 3 se situerait dans l’intervalle 64, 5 - 69, 5 et sa valeur doit être calculée comme suit:

Interprétation de la déviation de quartile:

Lors de l'interprétation de la valeur de l'écart par quartile, il est préférable d'avoir les valeurs de Median, Q 1 et Q 3, ainsi que Q. Si la valeur de Q est supérieure, la dispersion sera supérieure, mais la valeur dépend de l'échelle de mesure. Deux valeurs de Q doivent être comparées uniquement si l'échelle utilisée est la même. Q mesuré pour des scores sur 20 ne peut pas être comparé directement avec Q pour des scores sur 50.

Si la médiane et Q sont connues, on peut dire que 50% des cas se situent entre «Médiane - Q» et «Médiane + Q». Ce sont les 50% de cas moyens. Ici, nous arrivons à connaître la gamme de seulement 50% des cas. La façon dont les 25% inférieurs et les 25% supérieurs des cas sont répartis n’est pas connue grâce à cette mesure.

Parfois, les cas extrêmes ou les valeurs ne sont pas connus, auquel cas la seule alternative à notre disposition est de calculer l’écart médian et quartile comme mesure du centre, de la tendance et de la dispersion. La médiane et les quartiles permettent de déduire la symétrie ou l’asymétrie de la distribution. Laissez-nous donc avoir une idée des distributions symétriques et asymétriques.

Distributions symétriques et asymétriques:

Une distribution est dite symétrique lorsque les fréquences sont réparties symétriquement autour de la mesure de la tendance centrale. En d'autres termes, on peut dire que la distribution est symétrique si les valeurs à égale distance des deux côtés de la mesure de la tendance centrale ont des fréquences égales.

Exemple 7:

Trouvez si la distribution donnée est symétrique ou non.

Ici, la mesure de la tendance centrale, moyenne aussi bien que médiane, est 5. Si nous commençons à comparer les fréquences des valeurs des deux côtés de 5, nous constatons que les valeurs 4 et 6, 3 et 7, 2 et 8, 1 et 9, 0 et 10 ont le même nombre de fréquences. La distribution est donc parfaitement symétrique.

Dans une distribution symétrique, la moyenne et la médiane sont égales et la médiane est située à égale distance des deux quartiles, c’est-à-dire Q 3 - Médiane = Médiane - Q 1 .

Si une distribution n'est pas symétrique, l'écart par rapport à la symétrie se réfère à son asymétrie. L'asymétrie indique que la courbe est tournée davantage d'un côté que de l'autre. La courbe aura donc une queue plus longue d'un côté.

L'asymétrie est dite positive si la queue la plus longue se trouve du côté droit et elle est négative si la queue la plus longue se trouve du côté gauche.

Les figures suivantes montrent l’apparence d’une courbe asymétrique positive et négative:

Q 3 - Mdn> Mdn - Q 1 indique une asymétrie ve

Q 3 - Mdn <Mdn - Q 1 indique - cinq asymétries

Q 3 - Mdn = Mdn - Q 1 indique une asymétrie nulle

Mérites de Q:

1. Il s'agit d'une mesure de la variabilité plus représentative et plus fiable que la plage globale.

2. C'est un bon indice de densité de score au milieu de la distribution.

3. Les quartiles sont utiles pour indiquer l'asymétrie d'une distribution.

4. Comme la médiane, Q s’applique aux distributions open-end.

5. Partout où la médiane est préférée comme mesure de la tendance centrale, l’écart du quartile est préféré comme mesure de la dispersion.

Limites de Q:

1. Cependant, à l'instar de la médiane, l'écart d'un quartile n'est pas sujet au traitement algébrique, car il ne prend pas en compte toutes les valeurs de la distribution.

2. Il calcule uniquement le troisième et le premier quartile et nous parle de la plage. À partir de Q ', nous ne pouvons pas obtenir une image fidèle de la façon dont les scores sont dispersés à partir de la valeur centrale. C’est parce que «Q» ne nous donne aucune idée de la composition des partitions. «Q» de deux séries peut être égal, mais les séries peuvent être très différentes dans leur composition.

3. Cela donne une idée de la dispersion.

4. Il ignore les scores supérieurs au troisième quartile et inférieurs au premier quartile. Cela nous parle simplement des 50% moyens de la distribution.

Utilisations de Q:

1. Lorsque la médiane est la mesure d’une tendance centrale;

2. lorsque la distribution est incomplète à l'une ou l'autre extrémité;

3. Lorsqu'il y a un score dispersé ou extrême qui aurait une influence disproportionnée sur le DS;

4. Lorsque la concentration autour de la médiane - la moitié des cas présente un intérêt primordial.

Coefficient de déviation de quartile:

L'écart de quartile est une mesure absolue de la dispersion et, afin de le rendre relatif, nous calculons le «coefficient d'écart de quartile». Le coefficient est calculé en divisant l'écart du quartile par la moyenne des quartiles.

Il est donné par:

Coefficient d'écart quartile = Q 3 - Q 1 / Q 3 + Q 1

Où Q 3 et Q 1 désignent respectivement les quartiles supérieur et inférieur.

Mesure n ° 3. Écart moyen (AD) ou écart moyen (DM):

Comme nous avons déjà discuté de la plage et le «Q» nous donne une idée de la variabilité. La plage de deux séries peut être identique ou la différence de quartile de deux séries peut être identique, mais les deux séries peuvent être différentes. Ni la gamme ni le «Q» ne parlent de la composition de la série. Ces deux mesures ne prennent pas en compte les scores individuels.

La méthode de la déviation moyenne ou «la déviation moyenne», comme on l'appelle parfois, tend à éliminer un grave inconvénient des deux méthodes (gamme et «Q»). L'écart moyen s'appelle également le premier moment de dispersion et est basé sur tous les éléments d'une série.

L'écart moyen est la moyenne arithmétique des écarts d'une série calculée à partir d'une mesure de tendance centrale (moyenne, médiane ou mode), tous les écarts étant considérés comme positifs. En d’autres termes, la moyenne des écarts de toutes les valeurs par rapport à la moyenne arithmétique est appelée écart moyen ou écart moyen. (Généralement, l'écart est pris de la moyenne de la distribution.)

Où est la somme totale de;

X est le score; M est la moyenne; N est le nombre total de scores.

Et 'd' signifie l'écart des scores individuels par rapport à la moyenne.

Calcul de la déviation moyenne (données non groupées):

Exemple 8:

Trouvez l'écart moyen pour l'ensemble de variables suivant:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Solution:

Afin de trouver l'écart moyen, nous calculons d'abord la moyenne pour l'ensemble d'observations donné.

Les écarts et les écarts absolus sont indiqués dans le tableau 4.2:

Exemple 9:

Trouvez l'écart moyen pour les scores donnés ci-dessous:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

La moyenne des scores ci-dessus était de 29, 7.

Pour calculer l'écart moyen:

Remarque:

Si vous appliquez une algèbre, vous pouvez voir que (X - M) vaut zéro

Calcul de la déviation moyenne (données groupées):

Exemple 10:

Trouvez l'écart moyen pour la distribution de fréquence suivante:

Ici, dans la colonne 1, nous écrivons les ci, dans la colonne 2, nous écrivons les fréquences correspondantes, dans la colonne 3, nous écrivons les points médians des ci, désignés par «X», dans la colonne 4, nous écrivons le produit des fréquences et des points milieux des points ci, désignés par X, dans la colonne 5, nous écrivons les déviations absolues des points milieux de ci par rapport à la moyenne, notés | d | et dans la colonne 6, nous écrivons le produit des déviations absolues et des fréquences, noté | fd |.

Mérites de la déviation moyenne:

1. L’écart moyen est la mesure de dispersion la plus simple qui prend en compte toutes les valeurs d’une distribution donnée.

2. Il est facilement compréhensible, même par une personne peu familiarisée avec les statistiques.

3. Il n’est pas très affecté par la valeur des objets extrêmes.

4. C'est la moyenne des déviations des scores individuels par rapport à la moyenne.

Limites:

1. La déviation moyenne ignore les signes algébriques des déviations et, en tant que telle, ne permet pas un traitement mathématique ultérieur. Donc, il n’est utilisé que comme mesure descriptive de la variabilité.

2. En fait, MD n'est pas utilisé couramment. Elle est rarement utilisée dans les statistiques modernes et la dispersion est généralement étudiée par écart-type.

Utilisations de MD:

1. Quand on souhaite peser tous les écarts en fonction de leur taille.

2. Lorsqu'il est nécessaire de savoir dans quelle mesure les mesures sont réparties de part et d'autre de la moyenne.

3. Lorsque des écarts extrêmes influencent indûment l'écart type.

Interprétation de la déviation moyenne:

Pour interpréter l'écart moyen, il est toujours préférable de l'examiner avec la moyenne et le nombre de cas. La moyenne est nécessaire car la moyenne et la moyenne des déviations sont respectivement le point et la distance sur la même échelle de mesure.

Sans moyenne, l'écart moyen ne peut pas être interprété, car il n'y a pas d'indice pour l'échelle de mesure ou l'unité de mesure. Le nombre de cas est important car la mesure de la dispersion en dépend. Pour moins de cas, la mesure sera probablement plus.

Dans les deux exemples, nous avons:

Dans le premier cas, l'écart moyen est proche de 25% de la moyenne, alors que dans le second cas, il est inférieur. Mais l’écart moyen peut être plus important dans le premier cas en raison du nombre réduit de cas. Ainsi, les deux écarts moyens calculés ci-dessus indiquent une dispersion presque similaire.

Mesure n ° 4. Écart type ou écart type et écart:

Parmi plusieurs mesures de dispersion, la mesure la plus fréquemment utilisée est «l'écart type». C’est aussi la plus importante, car elle est la seule mesure de dispersion susceptible d’un traitement algébrique.

Ici aussi, les écarts de toutes les valeurs par rapport à la moyenne de la distribution sont pris en compte. Cette mesure présente le moins d'inconvénients et fournit des résultats précis.

Il supprime l'inconvénient d'ignorer les signes algébriques lors du calcul des écarts des éléments par rapport à la moyenne. Au lieu de négliger les signes, nous corrigeons les écarts, ce qui les rend tous positifs.

Il diffère de la DA à plusieurs égards:

je. En calculant AD ou MD, nous ignorons les signes, tandis qu'en recherchant SD, nous évitons la difficulté des signes en quadrillant les déviations séparées;

ii. Les écarts carrés utilisés dans le calcul de l'écart type sont toujours pris de la moyenne, jamais de la médiane ou du mode.

"L'écart-type ou écart-type est la racine carrée de la moyenne des déviations au carré des scores individuels par rapport à la moyenne de la distribution."

Pour être plus clair, il convient de noter ici que, dans le calcul du DD, nous corrigeons toutes les déviations séparément. Trouvez leur somme, divisez la somme par le nombre total de scores puis trouvez la racine carrée de la moyenne des déviations au carré.

Ainsi, SD est également appelée «déviation de la moyenne de la racine» par rapport à la moyenne et est généralement désignée par la petite lettre grecque σ (sigma).

Symboliquement, l'écart type pour les données non groupées est défini comme suit:

Où d = écart des scores individuels par rapport à la moyenne;

(Certains auteurs utilisent «x» comme écart des scores individuels par rapport à la moyenne)

∑ = somme totale de; N = nombre total de cas.

Les écarts carrés moyens sont appelés variance. Ou, en termes simples, le carré de la norme de déviation est appelé le deuxième moment de dispersion ou de variance.

Calcul de SD (données non groupées):

Il existe deux manières de calculer le DD pour les données non groupées:

(a) Méthode directe.

b) Méthode du raccourci.

a) Méthode directe:

Trouvez l'écart type pour les scores donnés ci-dessous:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Cette méthode utilise la formule (18) pour trouver SD qui comprend les étapes suivantes:

Étape 1:

Calculer la moyenne arithmétique des données fournies:

Étape 2:

Écrivez la valeur de l'écart d ie X - M par rapport à chaque score dans la colonne 2. Ici, les écarts des scores doivent être pris à partir de 12. Maintenant, vous constaterez que ∑d ou (X - M) est égal à zéro. Pensez, pourquoi est-ce? Vérifie ça. Si ce n'est pas le cas, recherchez l'erreur de calcul et corrigez-la.

Étape 3:

Place les écarts et écrit la valeur de d 2 par rapport à chaque résultat dans la colonne 3. Trouve la somme des écarts carrés. ∑d 2 = 84.

Tableau 4.5 Calcul de l'écart type:

La déviation standard requise est de 2, 9.

Étape 4:

Calculez la moyenne des écarts carrés, puis trouvez la racine carrée positive pour obtenir la valeur de l'écart type, c.-à-d. Σ.

En utilisant la formule (19), la variance sera σ 2 = d 2 / N = 84/10 = 8.4

b) Méthode du raccourci:

Dans la plupart des cas, la moyenne arithmétique des données données s'avère être une valeur fractionnelle, puis le processus de relevé des écarts et de leur quadrature devient fastidieux et prend beaucoup de temps à calculer SD.

Pour faciliter le calcul dans de telles situations, les écarts peuvent être déduits d’une moyenne supposée. La formule de raccourci ajustée pour calculer SD sera alors,

où,

d = écart du score par rapport à une moyenne supposée, par exemple AM; soit d = (X - AM).

d 2 = le carré de la déviation.

∑d = La somme des déviations.

∑d 2 = La somme des écarts carrés.

N = nombre de scores ou de variables.

La procédure de calcul est clarifiée dans l'exemple suivant:

Exemple 11:

Trouvez SD pour les scores indiqués dans le tableau 4.5 de X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Utilisez la méthode du raccourci.

Solution:

Prenons supposé moyenne AM = 11.

Les écarts et carrés des écarts nécessaires dans la formule sont donnés dans le tableau suivant:

Mettre les valeurs du tableau dans la formule, le SD

La méthode des raccourcis donne le même résultat que celui obtenu en utilisant la méthode directe dans l'exemple précédent. Mais la méthode abrégée tend à réduire le travail de calcul dans les situations où la moyenne arithmétique n'est pas un nombre entier.

Calcul de SD (Données groupées):

(a) Méthode longue / méthode directe:

Exemple 12:

Trouvez le SD pour la distribution suivante:

Ici aussi, la première étape consiste à trouver la moyenne M, pour laquelle nous devons prendre les points médians des c.i dénotés par X 'et trouver le produit f X.'. La moyenne est donnée par ∑ f x '/ N. La deuxième étape consiste à rechercher les écarts des points médians des intervalles de classe X 'par rapport à la moyenne, c'est-à-dire X'-M, représentés par d.

La troisième étape consiste à quadriller les écarts et à trouver le produit des écarts au carré et de la fréquence correspondante.

Pour résoudre le problème ci-dessus, les valeurs ci sont écrites dans la colonne 1, les fréquences dans la colonne 2, les points médians de c.i, c'est-à-dire X 'dans la colonne 3, le produit de f X' dans la colonne 4, l'écart dans la colonne 5, X 'de la moyenne est inscrit dans la colonne 5, l'écart dans le carré d 2 dans la colonne 6 et le produit f d 2 dans la colonne 7,

Comme indiqué ci-dessous:

Ainsi, les déviations des points médians doivent être prises à partir de 11.1.

Ainsi, l’écart type requis est de 4, 74.

b) Méthode du raccourci:

Parfois, en méthode directe, il est observé que les écarts par rapport à la moyenne réelle résultent en décimales et que les valeurs de d 2 et de fd 2 sont difficiles à calculer. Afin d’éviter ce problème, nous suivons une méthode de raccourci pour calculer l’écart type.

Dans cette méthode, au lieu de prendre les écarts par rapport à la moyenne réelle, nous prenons les écarts par rapport à une moyenne supposée convenablement choisie, disons AM

La formule suivante est ensuite utilisée pour calculer l'écart type:

d est l'écart par rapport à la moyenne supposée.

Les étapes suivantes sont ensuite impliquées dans le calcul de l'écart type:

(i) Obtenir les écarts des variables de la moyenne supposée AM comme d = (X - AM)

(ii) Multipliez ces écarts par les fréquences correspondantes pour obtenir la colonne fd . La somme de cette colonne donne ∑ fd.

fd avec écart correspondant (d)

(iii) Multipliez-vous pour obtenir la colonne fd 2 . La somme de cette colonne sera ∑ fd 2 .

(iv) Utilisez la formule (22) pour trouver l'écart-type

Exemple 13:

En utilisant la méthode du raccourci, recherchez SD des données du tableau 4.7.

Solution:

Prenons comme hypothèse la moyenne AM = 10. D'autres calculs nécessaires pour calculer SD sont donnés dans le tableau 4.8.

Mettre les valeurs du tableau

En utilisant la formule (19), la variance

c) Méthode de déviation par pas:

Dans cette méthode, dans la colonne 1, nous écrivons ci; dans la colonne 2, nous écrivons les fréquences; dans la colonne 3, nous écrivons les valeurs de d, où d = X'-AM / i; dans la colonne 4, nous écrivons le produit de fd, et dans la colonne 5, nous écrivons les valeurs de fd 2, comme indiqué ci-dessous:

Ici, la moyenne supposée correspond au point médian de la valeur ci-dessus 9-11, c’est-à-dire que les écarts d ont été pris de 10 et divisés par 3, la longueur de ci. La formule de SD dans la méthode par déviation est la suivante:

où i = longueur des c.i,

f = fréquence;

d = écarts entre les points médians des points ci de la moyenne supposée (AM) en intervalles de classe (i), ce qui peut être indiqué:

Mettre les valeurs de la table

Les procédures de calcul peuvent également être énoncées de la manière suivante:

Écart-type combiné ( σ com b ):

Lorsque deux ensembles de scores ont été combinés en un seul lot, il est possible de calculer le σ de la distribution totale à partir des σ des distributions à deux composants.

La formule est la suivante:

σ 1, = SD de la distribution 1

σ 2 = SD de la distribution 2

d 1 = (M 1 - M peigne )

d 2 = ( peigne M 2 - M)

N 1 = Nombre de cas dans la distribution 1.

N 2 = Nombre de cas dans la distribution 2.

Un exemple illustrera l'utilisation de la formule.

Exemple 14:

Supposons que nous donnions les moyens et les DS à un test de réalisation pour deux classes de taille différente et que nous recherchions le o du groupe combiné.

Les données sont les suivantes:

Tout d'abord, nous constatons que

La formule (24) peut être étendue à un nombre quelconque de distributions. Par exemple, dans le cas de trois distributions, ce sera

Propriétés de la SD:

1. Si chaque valeur de variable est augmentée de la même valeur constante, la valeur de SD de la distribution reste inchangée:

Nous discuterons de cet effet sur le développement durable en considérant une illustration. Le tableau (4.10) montre les scores initiaux de 5 étudiants dans un test avec un score moyen arithmétique de 20.

De nouveaux scores (X ') sont également donnés dans le même tableau que nous obtenons en ajoutant une constante 5 à chaque score original. En utilisant une formule pour les données non groupées, nous observons que le SD des scores reste le même dans les deux situations.

Ainsi, la valeur du développement durable dans les deux situations reste la même.

2. Lorsqu'une valeur constante est soustraite de chaque variable, la valeur SD de la nouvelle distribution reste inchangée:

Les élèves peuvent également examiner le fait que, lorsque nous soustrayons une constante de chaque score, la moyenne est diminuée de la constante, mais l'écart-type est identique. C'est pour la raison que " d " reste inchangé.

3. Si chaque valeur observée est multipliée par une valeur constante, l'écart type des nouvelles observations sera également multiplié par la même constante:

Multiplions chaque résultat de la distribution initiale (tableau 4.10) par 5.

Ainsi, le SD de la nouvelle distribution sera multiplié par la même constante (ici, il s'agit de 5).

4. Si chaque valeur observée est divisée par une valeur constante, l'écart type des nouvelles observations sera également divisé par la même constante. Les étudiants peuvent examiner avec un exemple:

Ainsi, pour conclure, l'écart-type est indépendant du changement d'origine (addition, soustraction) mais dépend du changement d'échelle (multiplication, division).

Mesures de la dispersion relative (coefficient de variation):

Les mesures de dispersion nous donnent une idée de la mesure dans laquelle les scores sont dispersés autour de leur valeur centrale. Par conséquent, deux distributions de fréquence ayant les mêmes valeurs centrales peuvent être comparées directement à l'aide de diverses mesures de dispersion.

Si, par exemple, lors d'un test dans une classe, les garçons ont un score moyen M 1 = 60 avec SD σ 1 = 15 et le score moyen des filles est M 2 = 60 avec SD σ 2 = 10. Il est clair que les filles ayant un SD inférieur, sont plus cohérents dans la notation autour de leur score moyen que les garçons.

Nous avons des situations où deux distributions ou plus ayant des moyennes inégales ou des unités de mesures différentes doivent être comparées en ce qui concerne leur dispersion ou leur variabilité. Pour faire de telles comparaisons, nous utilisons des coefficients de dispersion relative ou des coefficients de variation (CV).

La formule est la suivante:

(Coefficient de variation ou coefficient de variabilité relative)

V donne le pourcentage qui σ est de la moyenne du test. Il s’agit donc d’un rapport indépendant des unités de mesure.

V est limité dans son utilisation en raison de certaines ambiguïtés dans son interprétation. Il est défendable lorsqu'il est utilisé avec des échelles de rapport - échelles dans lesquelles les unités sont égales et où il existe un zéro réel ou un point de référence.

Par exemple, V peut être utilisé sans hésitation avec des balances physiques, celles concernées par les grandeurs linéaires, le poids et le temps.

Deux cas se présentent dans l’utilisation de V avec des échelles de rapport:

(1) lorsque les unités sont différentes, et

(2) lorsque M sont inégaux, les unités de la balance sont les mêmes.

1. Lorsque les unités ne ressemblent pas:

Exemple 15:

Un groupe de garçons âgés de 10 ans a une taille moyenne de 137 cm. avec un o de 6, 2 cm. Le même groupe de garçons pèse en moyenne 30 kg. avec un de 3, 5 kg. Dans quel trait, le groupe est-il plus variable?

Solution:

Évidemment, nous ne pouvons pas comparer directement les centimètres et les kilogrammes, mais nous pouvons comparer la variabilité relative des deux distributions en termes de V.

Dans le présent exemple, deux groupes diffèrent non seulement par la moyenne, mais aussi par les unités de mesure qui est cm. dans le premier cas et kg. dans la seconde. Le coefficient de variation peut être utilisé pour comparer la variabilité des groupes dans une telle situation.

Nous calculons donc:

Il ressort donc du calcul ci-dessus que ces garçons sont environ deux fois plus variables (11, 67 / 4, 53 = 2, 58) en poids qu'en taille.

2. Lorsque les moyennes sont inégales mais que les unités d'échelle sont les mêmes :

Supposons que nous ayons les données suivantes sur un test pour un groupe de garçons et un groupe d'hommes:

Ensuite, comparez:

(i) La performance des deux groupes sur le test.

(ii) La variabilité des scores dans les deux groupes.

Solution:

(i) Comme le score moyen du groupe de garçons est supérieur à celui des hommes, le groupe de garçons a donné une meilleure performance au test.

(ii) Pour comparer deux groupes en ce qui concerne la variabilité entre les scores, les coefficients de variation sont calculés V de garçons = 26, 67 et V de hommes = 38, 46.

Par conséquent, la variabilité des scores est plus grande dans le groupe d'hommes. Les élèves du groupe de garçons, ayant un CV inférieur, notent plus régulièrement autour de leur score moyen par rapport au groupe des hommes.

SD et la diffusion des observations:

Dans une distribution symétrique (normale),

(i) La moyenne ± 1 écart-type couvre 68, 26% des scores.

La moyenne ± 2 écarts-types couvre 95, 44% des scores.

La moyenne ± 3 écarts-types couvre 99, 73% des scores.

(ii) Dans les grands échantillons (N = 500), l'intervalle est d'environ 6 fois l'écart-type.

Si N est environ 100, la plage est environ 5 fois la SD.

Si N est environ 50, la plage est environ 4, 5 fois la SD.

Si N est environ 20, la plage est environ 3, 7 fois le SD

Interprétation de l'écart type:

L’écart type caractérise la nature de la distribution des scores. Lorsque les scores sont plus largement répartis, le DD est plus important et lorsque les scores sont moins dispersés, le SD est moindre. Pour interpréter la valeur de la mesure de dispersion, nous devons comprendre que plus la valeur de ' σ ' est grande, plus les scores de la moyenne sont dispersés.

Comme dans le cas de l’écart moyen, l’interprétation de l’écart type requiert la prise en compte de la valeur de M et de N.

Dans les exemples suivants, les valeurs requises de σ, mean et N sont données comme suit:

Ici, la dispersion est davantage dans l'exemple 2 que dans l'exemple 1. Cela signifie que les valeurs sont plus dispersées dans l'exemple 2, par rapport aux valeurs de l'exemple 1.

Mérites du SD:

1. SD est défini de manière rigide et sa valeur est toujours définie.

2. C’est la mesure de dispersion la plus largement utilisée et la plus utilisée. Il occupe une position centrale dans les statistiques.

3. Comme l'écart moyen, il est basé sur toutes les valeurs de la distribution.

4. Ici, les signes de déviation ne sont pas ignorés, ils sont éliminés en quadrillant chacune des déviations.

5. Il s'agit de la mesure principale de la variabilité, car elle est susceptible d'un traitement algébrique et est utilisée dans les travaux de corrélation et dans d'autres analyses statistiques.

6. Il est moins affecté par les fluctuations de l'échantillonnage.

7. C'est la mesure la plus fiable et la plus précise de la variabilité. SD correspond toujours à la moyenne, qui est la mesure la plus fiable de la tendance centrale.

8. Il fournit une unité de mesure standard possédant une signification comparable d’un test à l’autre. De plus, la courbe normale est directement liée à la SD

Limites:

1. Ce n'est pas facile à calculer et ce n'est pas facile à comprendre.

2. Cela donne plus de poids aux objets extrêmes et moins à ceux qui sont proches de la moyenne. Lorsque l'écart d'un score extrême est au carré, sa valeur est supérieure.

Utilisations de la SD:

L'écart type est utilisé:

(i) Lorsque la mesure de variabilité la plus précise, la plus fiable et la plus stable est souhaitée.

(ii) Lorsqu'il faut accorder plus de poids aux écarts extrêmes par rapport à la moyenne.

(iii) Lorsque le coefficient de corrélation et d'autres statistiques sont calculés par la suite.

(iv) Lorsque des mesures de fiabilité sont calculées.

(v) Lorsque les scores doivent être interprétés correctement par rapport à la courbe normale.

(vi) Quand les scores standard doivent être calculés.

(vii) Lorsque nous voulons tester l'importance de la différence entre deux statistiques.

(viii) Lorsque le coefficient de variation, la variance, etc. sont calculés.