Techniques utilisées en statistique

Dans cet article, nous discuterons de certaines techniques statistiques. Certaines de ces techniques sont les suivantes: 1. Mesures de la tendance centrale 2. Variabilité 3. Probabilité 4. Distribution de la fréquence 5. Séries chronologiques.

Les mesures de tendance centrale:

Moyennes:

Toute mesure statistique donnant une idée de la position du point autour duquel se groupent les autres observations est appelée mesure de la tendance centrale. La mesure la plus couramment utilisée est la moyenne ou la moyenne arithmétique.

Les revenus quotidiens de deux travailleurs pour une semaine sont les suivants:

1er travailleur 70, 50, 100, 90, 50 Gains moyens = 76 roupies

2ème travailleur 200, 250, 50, 300, 150 Gains moyens = 190 Rs

Ainsi, à partir de l'exemple ci-dessus, nous pouvons conclure que le deuxième travailleur gagne en moyenne plus que le premier. Comme on peut facilement le constater, l’objet du calcul d’une moyenne est de remplacer la série d’observations par une valeur unique supposée représentative de toutes les observations. D'après l'exemple donné ci-dessus, on peut constater que la moyenne arithmétique est une valeur proche du milieu et que certaines des observations sont plus grandes qu'elle, alors que d'autres sont plus petites.

Ainsi, on peut dire que la moyenne arithmétique des observations sur une variable est définie comme la somme des observations divisée par le nombre d'observations.

Pour le premier travailleur, la moyenne arithmétique a été calculée comme suit:

(Rs 70 + 50 + 100 + 90 + 50) ÷ 5 = Rs 76

Moyenne géométrique (GM) La moyenne géométrique d'un groupe d'observations est définie comme la racine nième du produit de toutes les observations. Supposons que les observations sont x 1, x 2, x 3, …, x n .

GM peut être calculé comme suit:

Ceci peut être calculé à l'aide d'un tableau de log.

Mode:

Le mode est défini comme la valeur des variables ou des observations qui surviennent le plus souvent. Par exemple, si les observations sont —2, 9, 6, 2, 8, 2, 2, 7, 2 et 3, alors le mode est considéré comme étant 2, ce qui s'est produit pendant le nombre maximal de fois, c'est-à-dire 5 fois.

Médian:

La médiane est la valeur de la variable la plus au milieu lorsque les observations sont classées par ordre croissant ou décroissant. Il est évident que la moitié des valeurs sera inférieure à la médiane et la moitié des valeurs supérieure. Ainsi, si les observations sont 3, 9, 6, 4, 5, 7 et 10, puis en rangeant les valeurs dans un ordre croissant de 3, 4, 5, 6, 7, 9 et 10, la valeur médiane apparaît comme étant la 4ème observation et est égal à 6.

Toutefois, si le nombre d'observations est pair, il existe deux valeurs principales et il est de coutume de prendre la moyenne arithmétique de ces deux valeurs. Par exemple, si l'observation 10 est omise des variables ci-dessus, il existe deux valeurs les plus moyennes 5 et 6 et la valeur médiane est 5 + 6 2 = 5, 5.

Les autres outils statistiques importants pour mesurer et analyser les données et l’élément de variabilité qu’ils contiennent incluent le calcul de (i) Plage, (ii) Plage semi-inter-quartile, (iii) Écart absolu moyen, (iv) Écart-type, (v ) Distribution de fréquence (symétrique et asymétrique).

La distribution symétrique est caractérisée par l'existence d'une ligne de symétrie qui divise l'histogramme en deux parties et une partie est l'image miroir de l'autre. Cependant, la plupart des distributions commerciales et économiques ne sont pas de ce type. Les distributions asymétriques sont également appelées distributions asymétriques. L'asymétrie signifie le manque de symétrie et les distributions asymétriques sont caractérisées par une queue plus longue d'un côté de l'histogramme.

Mesurer la variabilité:

Les moyennes arithmétiques et géométriques ou médianes servent de base pour comparer deux ou plusieurs populations ou observations. Mais les autres mesures de variabilité ou de déviation jouent également un rôle important dans la mesure dans laquelle les observations diffèrent les unes des autres. En statistique, dispersion est synonyme de variabilité ou de déviation.

Voici les mesures importantes de la variabilité:

Intervalle:

La différence entre la plus grande et la plus petite valeur d'un ensemble d'observations est appelée la "plage".

Gamme semi-inter quartile :

La différence entre la valeur des observations du 2ème et du 3ème quartile est appelée la plage semi-inter-quartile. Cela supprime l'influence des valeurs très basses et très hautes des observations, qui sont peu nombreuses.

Signifie une déviation absolue:

L’écart absolu moyen signifie la variation des observations par rapport à la moyenne arithmétique des observations.

Exemple: Les observations sont x 1, x 2 … x n et la moyenne arithmétique est x.

La formule est la suivante:

et, par conséquent, la moyenne est

Mais ∑ (x 1 - x̅) = 0, quelle que soit la valeur de x 1, x 2, … .x n

Par conséquent, la formule ∑ (x i - x̅) ne peut être utilisée comme mesure de la variabilité. Cette difficulté peut être évitée si les signes (+ ou -) sont ignorés. C'est logique, car le signe d'un écart particulier x i - x̅ indique simplement si l'observation x i est à gauche de x ou à droite et cela n'a aucune pertinence pour le calcul des écarts, à partir du point central (x), de toute observation.

Déviation standard:

La déviation des observations par rapport à leur moyenne arithmétique (x̅) peut être positive (+) ou négative (-). En statistique, les signes d'écart par rapport à la moyenne arithmétique indiquent uniquement la direction de l'observation par rapport à la tendance centrale (x̅) et sont donc ignorés. Les signes négatifs (-) parmi l'écart par rapport au x peuvent également être évités si, au lieu de prendre les valeurs absolues, les carrés des écarts sont pris comme suit:

Étant donné que la mesure de la variabilité doit se trouver dans la même unité que les observations initiales, l'écart type est calculé à l'aide de la formule suivante:

Pour une distribution de fréquence, avec x 1 x 2, …, x n en tant que valeurs moyennes des classes et f 1 f 2, …, f n en tant que fréquences, l’écart type (SD) est calculé par l’amélioration suivante de la formule ci-dessus:

L’écart type est de loin la mesure de la variabilité la plus largement utilisée dans les statistiques. Il possède de nombreuses propriétés qui en font la mesure préférée des problèmes statistiques.

Exemple:

Les niveaux de QI de cinq étudiants en gestion des affaires sont les suivants:

par conséquent, l'écart-type est: 13, 22

13.22 est la déviation standard exprimée dans les mêmes unités que les observations elles-mêmes. La valeur 13.22 est un point sur la même échelle numérique.

L’écart-type ci-dessus a été calculé à partir des variances d’une population de 5 étudiants. Cependant, dans la pratique, l’écart-type ne peut souvent pas être calculé à partir de la population, car la population est généralement si nombreuse que l’échantillon est généralement pris en compte pour le calcul de l’écart.

Pour les données d'échantillon, la variabilité est mesurée par la variance d'échantillon et l'écart type est calculé à l'aide de la formule suivante:

Il convient de noter que, puisque les données de l'échantillon ont été utilisées, «n» désigne la taille de l'échantillon à la place de «N», qui indique l'observance de la population.

Notion de probabilité:

Souvent, dans notre vie quotidienne, nous prévoyons certains événements futurs avec des mots tels que - cela se produira probablement ", " la probabilité que cela soit très élevé ", ou" cela se produira selon toute probabilité ", avec une certaine imprécision dans déclarations. Ces déclarations sont dans une large mesure subjectives et dépendent principalement de notre capacité à analyser des situations similaires dans le passé. L'importance de la notion de probabilité d'événement et de certains moyens de le mesurer à l'aide d'outils statistiques est immense pour les banques commerciales.

Tout en accordant un prêt à un client, le banquier souhaiterait connaître la probabilité de défaut dudit client, qui est mesurée sur la base de l'étude de probabilité effectuée à l'aide des calculs statistiques. Bien qu’il soit assez difficile de définir les probabilités avec précision au niveau élémentaire, on peut tenter de les prévoir en utilisant les techniques de l’expérience aléatoire et de la définition de la fréquence.

Par expérience aléatoire, on entend une expérience dont tous les résultats possibles sont connus et qui peut être répétée dans des conditions identiques, mais la prédiction exacte du résultat est impossible. Le prix d’une marchandise à divers jours peut être considéré comme le résultat d’une expérience aléatoire. Les résultats seront généralement notés E 1, E 2, E 3 …, E n et on suppose qu'ils sont en nombre fini.

Distribution de fréquence:

Si le résultat E 1 apparaît r fois lorsque l'expérience aléatoire est répétée n fois, la probabilité de E 1 est définie par le rapport 'r / n', car le nombre de répétitions est augmenté indéfiniment. Ainsi, la probabilité est définie comme une limite de fréquence relative lorsque l'expérience est répétée un nombre infini de fois.

Des séries chronologiques:

Une série d'observations à différents moments dans une variable - qui dépend du temps - constitue une série temporelle. Ainsi, ces séries d'observations donnent les changements ou les variations d'une quantité sur une période donnée et sont souvent appelées données historiques ou chronologiques. Pour ce type de données, l'une des variables est le temps qui est représenté par «t» et l'autre, qui dépend du temps, est représenté par «Yt».

Par exemple, le rendement de la récolte à différentes saisons, la production d'acier au cours de différents mois, l'exportation trimestrielle de thé, la vente de crème glacée à différents mois de l'année, etc. Tous les exemples mentionnés ci-dessus se rapportent à une activité économique ou commerciale. et une série d’observations sur ces variables sont généralement appelées données économiques chronologiques. Un autre exemple de données chronologiques est la précipitation en pouces sur différents jours de l'année.

Il est donc clair que toute variable dépendant du temps constitue les données de la série chronologique. Des conclusions précieuses tirées par les parties intéressées, telles que le monde des affaires, les banquiers, les industriels, etc., à partir de la série chronologique, permettent de mesurer les tendances à partir des données, ce qui influence considérablement leurs décisions.