Corrélation: mesures, calcul et méthode

Après avoir lu cet article, vous apprendrez: - 1. Les mesures de corrélation 2. Le calcul de corrélation 3. Les méthodes.

Mesures de corrélation:

Coefficient de corrélation de Karl Pearson (observations individuelles) :

Pour calculer le degré ou l’étendue de la corrélation et la direction de la corrélation, la méthode de Karl Pearson est la plus satisfaisante.

Symboliquement, sa formulation est la suivante:

où dx est l'écart de divers éléments de la première variable par rapport à une moyenne supposée et dy, les écarts correspondants de la deuxième variable par rapport à la moyenne supposée et N connote le nombre de paires d'éléments.

L'application de la formule est expliquée en référence aux données hypothétiques suivantes:

Calcul du coefficient de corrélation dans une série continue:

Dans le cas d'une série continue, les données sont classées dans un tableau de fréquences bidirectionnel. Le calcul du coefficient de corrélation en ce qui concerne les données groupées est basé sur la présomption que chaque élément entrant dans un intervalle de classe donné est supposé tomber exactement à la valeur médiane de cette classe.

A titre d'illustration, nous allons calculer le coefficient ou la corrélation par rapport aux données suivantes:

La formule pour le calcul du coefficient de corrélation dans ce cas prendra la forme suivante:

Le seul changement dans la formule ci-dessus par rapport à la précédente est l'introduction de f, qui signifie fréquence.

En appliquant la formule au tableau 18.50, nous obtenons:

Méthode de corrélation par différence de rang:

Lorsque la mesure directe du phénomène à l'étude n'est pas possible, par exemple pour des caractéristiques telles que l'efficacité, l'honnêteté, l'intelligence, etc., la méthode de la différence de rang est utilisée pour déterminer l'étendue de la corrélation.

La formule de calcul de la corrélation de rang est la suivante:

où R désigne le coefficient de corrélation de rang entre les rangs appariés, D désigne les différences entre les rangs appariés et N représente le nombre de paires.

À l'aide de l'exemple suivant, nous illustrerons l'application de la formule ci-dessus:

Calcul du coefficient de corrélation par la méthode de la différence de rang :

(Lorsqu'il y a deux éléments ou plus ayant la même valeur) :

Si plusieurs éléments ont la même valeur, un classement commun leur est attribué. Ce rang est la moyenne des rangs qu'auraient ces objets s'il y avait eu une légère différence dans leurs valeurs. Supposons que les notes obtenues par cinq étudiants soient 70, 66, 66, 65, 63, respectivement.

Si ces marques sont rangées par ordre décroissant, le chiffre 70 se verrait attribuer le premier rang, 66 le deuxième rang, 65 le troisième et 63 le quatrième. Étant donné que les deux étudiants de l'exemple ont un score égal, leur rang est égal à 2. Ils se verront maintenant attribuer le rang moyen de ces classements que ces élèves auraient obtenus s'ils avaient légèrement différé l'un de l'autre.

Dans cette hypothèse, le rang des deux éléments serait 2 + 3/2. soit 2, 5 et le rang du prochain élément (65) serait égal à 4. Ainsi, le coefficient de corrélation de rang nécessiterait une correction car la formule ci-dessus [R = 1 6ΣD 2 / N (N 2 -1] est basée sur le hypothèse que les rangs des différents articles sont différents.

Lorsqu'il y a plus d'un élément avec la même valeur, un facteur de correction, 1/12 (t 3 -t) est ajouté à la valeur de zd 2, où t. représente le nombre d'éléments dont les rangs sont communs. Ce facteur de correction est ajouté autant de fois que le nombre d'éléments de rangs communs est atteint.

Ceci est expliqué dans l'exemple suivant:

Analyse des données et interprétation

Exemple:

Calculez le coefficient de corrélation de rang à partir des données suivantes:

Dans le jeu de données ci-dessus de la série X, le nombre 60 apparaît trois fois. Le rang des trois items est 5, ce qui correspond à la moyenne de 4, 5 et 6, rangs que ces items auraient obtenus s'ils avaient légèrement différé les uns des autres. Les autres nombres, 68 en série X et 70 en série Y, sont survenus à deux reprises. Leurs rangs sont respectivement 2, 5 et 1, 5.

Ainsi:

La formule modifiée pour le coefficient de corrélation de rang serait donc:

où n représente le nombre d'éléments répétés. En ce qui concerne l'exemple ci-dessus, la formule sera la suivante:

Une mise en garde relative à la signification et à l’implication d’un coefficient de corrélation est tout à fait justifiée. Le coefficient de corrélation, en soi une estimation très utile de la relation, ne doit pas être considéré comme une preuve absolue de l'association entre les variables pertinentes, dans la mesure où son interprétation dépend dans une large mesure de la taille de l'échantillon sélectionné pour l'étude, aussi, sur la nature des données collectées.

Un coefficient de corrélation apparemment élevé, par exemple, de 0, 80 (+) peut en réalité être assez trompeur si l’erreur type indiquant la fluctuation de l’échantillon est relativement grande, ou, pour prendre un exemple contraire, un coefficient apparemment faible de 0, 45 (+) peut suggérer que la relation entre les variables peut être ignorée, mais sur le plan de la réalité, cette indication peut à nouveau être erronée, car le coefficient de corrélation de certaines variables peut être si bas que le coefficient de corrélation ci-dessus, à savoir 0, 45 en comparaison, aurait besoin être considéré comme relativement élevé pour la classe de données en question.

Cependant, la convention statistique stipule que le coefficient de corrélation allant de 1 à 0, 7 (+) doit être considéré comme une indication de corrélation «élevée» ou significative, celle allant de 0, 7 à 0, 4 (+) comme substantielle, celle comprise entre 0, 4 et 0, 2 (+ ) aussi faible que celle inférieure à 0, 2 (+) comme négligeable.

Il convient également de souligner qu’une forte corrélation entre deux variables ne constitue pas en soi une preuve de leur lien de parenté. Une corrélation significative entre les variables - par exemple, entre le revenu et la taille de la famille ou la taille d’un établissement d’enseignement et la performance des étudiants - ne permet guère de penser à une relation informelle entre eux.

Supposons que nous trouvions qu’un revenu élevé est inversement corrélé au nombre de problèmes (enfants), c’est-à-dire que plus le revenu des parents est élevé, plus leur nombre de problèmes est faible (le coefficient de corrélation est de 0, 8, ce qui est statistiquement assez élevé), nous aurons tort et injustifié de dire que des revenus plus élevés sont la cause d'une baisse de la fécondité.

Nous avons déjà souligné qu’une inférence de causalité n’était justifiée que si trois types de preuves, la variation concomitante, l’ordre chronologique et l’élimination de toute autre variable en tant que condition déterminante de l’effet hypothétique pouvaient être obtenus.

Dans le cas présent, on peut éventuellement tirer les conclusions suivantes en tenant pleinement compte de la corrélation prononcée évidente entre les variables de revenu et le nombre d'enfants:

(a) L'un pourrait causer l'autre,

(b) Les deux variables peuvent être les effets d’une ou plusieurs autres causes, et

(c) L'association peut n'être qu'un hasard. Les inférences causales peuvent évidemment être très sûrement établies dans une situation expérimentale.

Nous avons envisagé cela lorsqu'il s'agit de modèles expérimentaux. En sciences sociales, il est très difficile de mettre en place des expériences, de sorte que les études doivent être non expérimentales. Des procédures analytiques ont toutefois été conçues pour tirer des conclusions sur la relation de cause à effet dans des études non expérimentales.

Le chercheur en sciences sociales est assez souvent intéressé par l’estimation du degré d’association entre attributs, c’est-à-dire entre variables définies qualitativement; par exemple, il peut vouloir vérifier le degré d'association entre l'attribut sexuel et les préférences politiques ou entre la nativité et l'attitude envers un certain problème social.

Fondamentalement, le problème d’association est un problème de corrélation, mais l’association entre attributs peut difficilement faire l’objet d’un traitement mathématique, comme dans le cas des mesures quantitatives de variables. Une mesure de cette association entre attributs est le coefficient de prévisibilité relative (RP), qui est en fait un coefficient de corrélation qualitatif.