Analyse des données: 4 étapes
Cet article met en lumière les quatre étapes principales de l'analyse des données. Les étapes sont les suivantes: 1. Établissement de catégories ou classification de données 2. Codage 3. Totalisation 4. Analyse statistique de données.
Étape # 1. Établissement de catégories ou classification de données :
La recherche en sciences sociales implique généralement une grande variété de réponses à différents types de questions posées ou de stimuli présentés à l’échantillon ou à la «population» de répondants. Ces réponses peuvent être verbales ou non verbales.
Il est clair que si l'on veut organiser un grand nombre de types de réponses de manière à pouvoir les utiliser pour répondre aux questions de recherche ou pour tirer des généralisations, il faut les regrouper dans un nombre limité de catégories ou de classes. Pour prendre un exemple simple, supposons qu'une question soit posée aux répondants: «Êtes-vous en faveur de l'examen du type d'objectif pour les étudiants?
Les réponses des répondants peuvent éventuellement être regroupées en quatre grandes catégories, à savoir:
(a) Réponses «oui».
(b) "Non" réponses.
(c) «ne sait pas», «ne peut pas dire», etc., réponses.
d) "N'a pas répondu."
Supposons une autre question posée aux répondants: «À quelle classe sociale diriez-vous que vous appartenez?
Les réponses des répondants peuvent être regroupées dans les catégories suivantes:
(a) Classe supérieure.
b) la classe moyenne.
c) Classe inférieure.
(d) "Je ne peux pas dire."
(e) Autres réponses (comme: "Je ne crois pas aux classes sociales." "Peu importe l'endroit où j'appartiens" etc.).
Une condition préalable à la prise de décision concernant les catégories à instituer pour le regroupement des données est que le chercheur doit choisir un principe de classification approprié. La question de recherche ou l'hypothèse, le cas échéant, fournit une bonne base logique pour choisir un principe de classification.
Supposons que l'hypothèse dans une étude soit:
"Les étudiants qui ont déjà étudié dans des écoles mixtes auront une attitude plus favorable envers le système de co-éducation."
Ici, évidemment, l’un des principes de la classification des réponses sera de savoir si le répondant a déjà eu une expérience du système mixte. Une autre base de classement des réponses serait le degré de favorabilité ou de désaveu exprimé vis-à-vis du système mixte. D'autres bases de classification peuvent également être invoquées, en fonction des associations à examiner.
La première base de classification donnerait deux catégories de réponses:
a) ont déclaré avoir déjà eu une expérience de coéducation;
(b) Ils n’ont aucune expérience en matière de co-éducation.
Ces deux catégories contiennent en elles-mêmes tout l’éventail des réponses (en supposant bien sûr qu’aucun des répondants n’a refusé de répondre ou n’a pas répondu ou donné une «autre réponse». Aucune réponse concernant l’hypothèse ci-dessus n’est au-delà de la portée de ces deux catégories. Ces deux catégories forment ensemble ce qu'on appelle un «ensemble de catégories».
Un «ensemble de catégories» doit répondre aux trois exigences suivantes:
(1) L'ensemble des catégories devrait être dérivé d'un principe de classification unique. Cette exigence est tout à fait compréhensible car si plusieurs principes de classification sont utilisés, une même réponse peut être revendiquée par plusieurs catégories.
Ainsi, les catégories ne seront pas indépendantes les unes des autres. Par exemple, si nous avons trois catégories constituant la catégorie, par exemple, homme, femme, enfant, dérivant évidemment de deux principes de classification, à savoir respectivement le sexe et l’âge, alors chaque cas (répondant) peut être couvert par plus de une catégorie dans le jeu de catégories.
Par exemple, un enfant peut également être un homme, une femme peut également être un enfant, etc. Le principe de classification peut toutefois être un principe composé, c’est-à-dire composé de deux critères ou plus, c’est-à-dire enfant de sexe masculin, enfant de sexe féminin, etc.
(2) La seconde exigence est que l'ensemble des catégories soit exhaustif, c'est-à-dire qu'il soit possible de placer chaque réponse dans l'une des catégories de l'ensemble. "Aucune réponse" doit être omis faute d'une catégorie appropriée dans l'ensemble qui la comprendra.
Quelles que soient les réponses, elles doivent être couvertes par une catégorie dans l’ensemble. Par exemple, si les peuples du monde devaient être classés sur la base de leur race, la catégorie constituée de trois catégories, à savoir, a) Caucasoïde, b) Négroïde et c) Mongoloïde, ne serait clairement pas constituer un ensemble de catégories exhaustif en accord avec l'exigence décrite ci-dessus, car il ne contient pas une seule catégorie dans laquelle de nombreux Indiens (et quelques autres) peuvent trouver une place.
(3) La dernière condition est un corollaire de la première, à savoir que les catégories de l'ensemble doivent être mutuellement exclusives; c'est-à-dire que les catégories ne doivent pas se chevaucher. Ainsi, aucune réponse ne serait réclamée par plus d'une catégorie dans l'ensemble.
L'établissement de catégories de données caractéristiques des sciences sociales n'est pas toujours une tâche facile. Le principe de classification peut souvent être un principe composé (par opposition à simple, unitaire). La tâche de dégager toutes les catégories qui s’excluent mutuellement et qui épuiseraient l’univers total des réponses, sur la base d’un principe de classification composé, est en effet une tâche exigeante, qui exige de l’imagination.
Dans de tels cas, il est très utile de réduire les attributs constituant le principe composé de classification aux symboles ou aux codes et de définir, au moyen de la technique de l’expansion booléenne, tout l’éventail des catégories possibles constituant l’ensemble des catégories.
Prenons un exemple très simple. Supposons que le chercheur considère trois attributs, par exemple, le sexe (homme ou femme), l'âge (moins de 21 ans ou plus de 21 ans) et l'état matrimonial (marié ou célibataire) comme éléments constitutifs de son principe de classification unique (mais composé) et réduit ces symboles à:
Homme = S, femme = S̅
Moins de 21 ans = A, plus de 21 ans = A̅
Marié = M, Célibataire = M̅
L'ensemble de catégories qui en résultera sera la totalité exhaustive comprenant toutes les combinaisons possibles de ces trois attributs qui constituent le principe de classification composé. Les combinaisons possibles, à savoir les catégories, seront 2 3 = 2 x 2 x 2 = 8 en nombre.
Ce sont comme sous:
(1) SAM
(2) S AM
(3) S A̅ M
(4) SA M̅
(5) S̅ A̅ M
(6) S A M̅
(7) S A̅ M
(8) S A̅ M̅
En décodant, c'est-à-dire en substituant les connotations réelles aux symboles, nous obtenons huit catégories mutuellement exclusives qui se lisent comme suit:
(1) Hommes de moins de 21 ans et mariés.
(2) Femmes de moins de 21 ans et mariées.
(3) Hommes de plus de 21 ans et mariés.
(4) Hommes de moins de 21 ans et célibataires.
(5) Femmes de plus de 21 ans et mariées.
(6) Femmes de moins de 21 ans et célibataires.
(7) Hommes de plus de 21 ans et célibataires.
(8) Femmes de plus de 21 ans et célibataires.
De même, si le principe de classification composé est constitué de quatre attributs, nous aurons 2 4 = 2x 2 x 2 x 2, soit 16 catégories mutuellement exclusives. Il convient de préciser maintenant comment cette méthode d'établissement de catégories, plutôt que l'intuition, rend la tâche de classification beaucoup plus facile et sans faille.
Il est évident que l’établissement d’un ensemble de catégories est relativement facile si les réponses obtenues par les répondants au cours de l’étude sont assez simples et bien définies, de sorte que les catégories peuvent être facilement définies de manière non ambiguë. Bien que ce soit la manière dont les catégories doivent toujours être définies, la tâche est beaucoup plus difficile avec certains types de contenu.
Supposons que, dans une étude, le chercheur ait demandé aux étudiants de sexe masculin: «Comment diriez-vous que les étudiantes pensent d'étudier dans le même collège avec des étudiants de sexe masculin comme vous?» Les réponses vont probablement d'indications d'attitudes très favorables (imputées aux étudiantes ) à des imputations d'attitudes très défavorables. Supposons que ce soient quelques-unes des réponses reçues des répondants.
(1) Ils aiment l'idée.
(2) 'Je ne pense pas que ça les dérange.'
(3) "Ils pensent que cela les abaisse."
(4) Je n'entre pas en contact avec eux, alors je ne saurais pas.
(5) 'Ils détestent ça.'
(6) "Certains l'aiment, d'autres pas."
(7) "Ils veulent étudier ici pour pouvoir dire qu'ils ne sont pas moins que les hommes."
(8) "Dans un collège réservé aux femmes, il leur manquerait beaucoup, alors ils semblent aimer ça."
En ce qui concerne les réponses ci-dessus, il ne serait pas difficile d’élaborer un ensemble simple de catégories sur la base du principe de classification des attitudes favorables ou défavorables imputées aux filles. Mais nous constatons que les réponses favorables et défavorables transmettent différentes nuances de sens.
L’élève qui dit: «Elles (les étudiantes) veulent étudier ici pour pouvoir dire qu’ils ne sont pas moins que des hommes» exprime quelque chose de différent de celui qui dit: «Ils aiment l’idée». De même, l’élève qui dit:, "Ils pensent que cela les abaisse" dit encore une fois quelque chose de différent de celui qui dit: "Ils détestent ça."
Ainsi, nous voyons que deux attributs, à savoir:
(1) Imputation d'attitudes favorables ou défavorables à l'égard des filles et
(2) La référence explicite ou l’absence de référence aux avantages ou aux préjudices qui sous-tendent des attitudes favorables ou défavorables sont deux éléments essentiels d’un principe de classification composé.
Les catégories de l'ensemble de catégories correspondant aux exigences idéales d'un ensemble de catégories discuté précédemment peuvent être classées comme suit:
(1) Attitude favorable imputée aux filles, expliquée en termes d'avantages qu'elles retirent d'étudier dans le même collège avec des étudiants (par exemple, 7ème et 8ème réponses).
(2) Attitude favorable attribuée aux filles sans référence explicite aux avantages tirés d'étudier dans le même collège avec des hommes (par exemple déclaration n ° 1).
3) Attitude neutre ou accommodante imputée aux filles (p. Ex. Déclaration n ° 1).
(4) Attitude défavorable attribuée aux filles, expliquée en termes d'inconvénients (avantages négatifs) qu'elles tirent d'étudier dans le même collège avec des étudiants.
(5) Attitude défavorable attribuée aux filles sans référence explicite aux désavantages ou aux pertes résultant de la coéducation (déclaration n ° 5, par exemple).
(6) Autres réponses, je ne peux pas dire, pas de réponse, je ne sais pas (par exemple déclaration n ° 4).
L'illustration ci-dessus donnerait une idée de la complexité d'une classification en sciences sociales. Travailler avec des catégories aussi complexes nécessite beaucoup de soin et d’effort de classification. Même lorsque les catégories ont été élaborées avec soin, leur utilisation présentera des problèmes plus importants que l'utilisation de catégories plus étroitement et exactement définies.
Dans l'exemple ci-dessus, un élève de sexe masculin dit: «Ils l'aiment bien ici, ils savent pourquoi» . La question se pose de savoir si cette affirmation implique ou non un avantage. Il faudrait donc établir des règles supplémentaires pour traiter de telles réponses.
Même au prix de certaines répétitions, il convient de dire que, bien qu’en principe, il soit possible d’utiliser de nombreux attributs de réponses pour la formulation d’ensembles de catégories, en pratique, cela est souvent inutile, peu rentable et peu gratifiant, car tous ces principes de classification porter sur l'objectif de l'étude.
Voyons maintenant le problème de la sélection d’un principe de classification permettant de catégoriser un matériel non structuré (c’est-à-dire des informations collectées par des outils non structurés).
Dans les études utilisant des instruments structurés pour collecter des données pertinentes pour des questions de recherche ou des hypothèses de recherche clairement formulées, le principe approprié pour la classification des réponses est assez clairement défini par la nature des questions et des réponses obtenues.
En travaillant avec du matériel non structuré ou des données, toutefois, le premier problème est de décider quels aspects du matériel doivent être catégorisés, c'est-à-dire quels principes de classification doivent être utilisés pour établir des catégories.
Dans les études exploratoires qui, en principe, ne partent pas d'un problème bien formulé ou d'une hypothèse explicite, il est difficile de prendre une décision concernant les principes de classification. Au moment de la collecte des données, l’enquêteur ne sait pas quels aspects peuvent se révéler les plus importants.
Il doit donc collecter une grande quantité de données de type non structuré. Au cours de l'analyse, le chercheur est confronté au problème de la gestion non seulement des matériaux non structurés, mais également d'un grand volume de ceux-ci.
Lors de l'analyse des données d'une étude exploratoire, il est conseillé de développer une hypothèse de travail qui conduira à des principes de classification satisfaisants et exploitables. Le chercheur est tenu de lire attentivement tous ses documents et d’être attentif aux indices cachés dans les données. De tels indices sont souvent obtenus en étudiant des matériaux sur des sujets ou des situations contrastant avec ceux qu’il étudie.
Une telle étude aide l’enquêteur à voir les différences importantes entre les deux situations. Une autre procédure pour obtenir de tels indices est de regrouper ses cas en groupes qui semblent avoir une parenté proche ou d'apparaître comme appartenant à un groupe, puis de se demander ce qui l'a amené à penser que les cas qu'il a placés dans un seul groupe se ressemblent.
Une autre approche qui peut stimuler des indices pour la formulation d’une hypothèse de travail consiste à noter les questions qui semblent surprenantes au regard de certaines attentes théoriques ou du bon sens, puis à rechercher une explication possible du phénomène surprenant ou imprévu.
Il convient toutefois de rappeler que même avec une hypothèse claire, l'analyse de matériaux non structurés pose des problèmes particuliers. Premièrement, il est toujours possible que des informations sur un point donné soient absentes de certains documents.
Il est également probable qu'un grand nombre de documents n'ont pas d'incidence directe sur l'hypothèse. En outre, le problème est de décider de la taille des unités du matériau auquel les catégories doivent être appliquées.
Par exemple, si un chercheur utilisait des dossiers conservés par des organismes de protection sociale, il devait décider quelle unité (clients, déclarations, actes, travailleurs sociaux, séances avec le client ou le dossier complet) était la plus appropriée pour fournir des réponses à ses questions. questions de recherche spécifiques.
Étape # 2. Codage:
Le codage consiste à attribuer des symboles, généralement des chiffres, à chaque réponse appartenant à une classe prédéterminée. En d'autres termes, le codage peut être considéré comme le processus de classification nécessaire pour la tabulation ultérieure. Grâce au codage, les données brutes sont transformées en symboles pouvant être totalisés et comptés.
Cette transformation n’est cependant pas automatique, elle implique beaucoup de jugement de la part du codeur. "Codeur" est le titre officiel de toute personne à qui est confiée la responsabilité d'attribuer des codes particuliers aux réponses après que les notes enregistrées ont été apportées au bureau.
Cependant, il convient de rappeler que souvent, le choix de la réponse à laquelle un code particulier doit être attribué est effectué par une personne autre que celle qui utilise la désignation officielle de «codeur».
Le codage peut avoir lieu à trois moments différents d’une étude, chacun d’eux pouvant être responsable de l’attribution de codes aux données brutes. Dans de nombreuses études, on peut demander au répondant lui-même d’attribuer des codes à sa propre réaction ou situation.
Cela est vrai pour de nombreuses questions de type sondage et à choix multiples. Par exemple, lorsqu'on demande au répondant d'indiquer à laquelle des classes (par exemple, les groupes de revenus) il appartient, par exemple, (a) au-dessous de 3 000 roupies pm, (b) Rs. 3001 / - à Rs. 6000 / - pm, (c) Rs. 6001 / - à Rs. 9000 / - pm, (d) Rs. 9001 / et plus, le répondant code sa réponse simplement en cochant sa position parmi les alternatives données.
Le deuxième point auquel le codage peut avoir lieu est celui où, lors de la collecte des données, l’intervieweur ou l’observateur catégorise les réponses des sujets. C'est ce qui est fait lorsqu'un intervieweur ou un observateur utilise une échelle d'évaluation pour décrire la réponse ou le comportement d'une personne.
Le dernier moment où le codage peut avoir lieu est bien sûr le moment où les données brutes non catégorisées (collectées notamment au moyen d'instruments de collecte de données non structurés) sont déposées dans le bureau de projet et où les codeurs officiels exercent leur jugement pour attribuer des codes particuliers à des codes particuliers. réponses ou données.
Laissez-nous brièvement comparer et opposer les avantages et les inconvénients du codage par les codeurs officiels au bureau et du codage par les enquêteurs ou les observateurs effectué au cours de la collecte de données sur le terrain.
Les enquêteurs ou observateurs sont en mesure de noter la situation ainsi que le comportement de la personne. Ainsi, ils disposent de davantage d'informations pour fonder leurs jugements sur la catégorisation appropriée des réponses par rapport aux codeurs travaillant sur la base d'enregistrements écrits qui peuvent ne pas donner une idée complète du sens réel de la réponse.
Un autre avantage du codage par les collecteurs de données eux-mêmes est que le temps et le travail peuvent être économisés.
Au contraire, le codage au bureau par des codeurs présente certains avantages en termes de signal. Le codage des bureaux est l’opportunité de coder des données complexes qui nécessitent du temps pour la réflexion. Les décisions prises par les enquêteurs en matière de codage sur place risquent de ne pas être aussi éclairées que celles qui nécessitent plus de temps pour la délibération.
Le jugement des collecteurs de données peut être influencé par de nombreux facteurs, à savoir l'apparence, les accents et les réponses du répondant aux questions précédentes, les manières, etc. Il existe également un risque que les collecteurs de données manquent d'uniformité lors du codage des réponses.
Ainsi, la comparabilité des données obtenues d’un grand nombre de répondants est entravée. Troisièmement, les enquêteurs ou observateurs peuvent développer leurs propres cadres de référence personnels en ce qui concerne le matériel qu’ils codent. Cela aurait tendance à rendre leurs catégorisations peu fiables, après un certain temps. Un référentiel commun est plus facile à obtenir et à gérer dans l’opération de codage d’office que sur le terrain.
Laissez-nous aborder certains des problèmes importants liés à la fiabilité du codage. Beaucoup de choses peuvent fonctionner pour rendre le jugement des codeurs peu fiable. Certains des facteurs peuvent provenir des données à classer, certains de la nature des catégories à appliquer, d'autres encore peuvent émaner des codeurs eux-mêmes.
Nous allons maintenant examiner brièvement certains de ces facteurs et les moyens de les protéger.
Un grand nombre des difficultés rencontrées lors du codage résultent des insuffisances des données. Souvent, les données ne fournissent pas suffisamment d'informations pertinentes pour un codage fiable. Cela pourrait être dû à des procédures de collecte de données déficientes et inadéquates. Toutefois, ces difficultés peuvent généralement être surmontées en modifiant soigneusement les données. Le processus qui consiste à scruter les données pour améliorer leur qualité de codage dit édition.
Lorsque le collecteur de données remet son matériel au bureau de projet, la possibilité d'éliminer de nombreuses difficultés de codage potentielles existe toujours. Un examen minutieux des données dès leur collecte et, si nécessaire, un interrogatoire systématique des enquêteurs ou des observateurs aident à éviter de nombreux problèmes de codage.
L’édition permet non seulement d’éviter des problèmes de codage ultérieurs, mais elle peut également améliorer considérablement la qualité de la collecte de données en indiquant les cas où les enquêteurs ou les observateurs ont mal compris les instructions ou n’ont pas enregistré les données suffisamment détaillées.
En fait, la vérification devrait avoir lieu au cours des tests préalables de l’entrevue ou du programme d’observation, en formant les enquêteurs ou les observateurs, et en fait tout au long de la période de collecte des données. Le montage au bureau de projet contribue grandement à résoudre les problèmes de codage.
Ainsi, la vérification doit être faite pendant que les interviewers ou les observateurs peuvent être facilement mis à disposition pour un interrogatoire. La révision implique un examen minutieux des calendriers d’entrevue ou d’observation.
Ceux-ci doivent être vérifiés pour:
(1) Intégralité: les rédacteurs en chef doivent vérifier que tous les éléments sont dûment renseignés. Par exemple, un espace vide à côté d'une question dans le calendrier des entretiens peut signifier «pas de réponse» ou «ne sait pas» ou le refus de répondre. réponse ou inapplicabilité de la question, ou la question ayant été omise par erreur, etc.
(2) L'éditeur devrait examiner les calendriers d'entretien ou d'observation pour savoir si l'écriture, les symboles ou les codes attribués par l'intervieweur ou l'observateur peuvent être facilement compris par le codeur.
Il est toujours conseillé de vérifier la lisibilité lors de la remise du matériel et, si nécessaire, de demander à l'intervieweur ou à l'observateur de le réécrire. Si cela n'est pas fait, le codage risque de rester bloqué à un stade où les enquêteurs ou les observateurs risquent de ne pas être facilement rappelés pour un interrogatoire.
(3) L’édition implique également d’examiner la prévisibilité des plannings. Il arrive souvent qu'une réponse enregistrée soit parfaitement compréhensible pour l'intervieweur ou l'observateur, mais pas intelligible pour le codeur, car le contexte du comportement ou de la réponse n'est pas connu du codeur. Un questionnement systématique des collecteurs de données dissipera la confusion et les ambiguïtés et améliorera considérablement la qualité du codage.
(4) Il convient également d'examiner ou de vérifier les données pour déterminer s'il existe certaines incohérences dans les réponses consignées dans la liste.
Par exemple, un répondant aurait peut-être répondu à l’une des questions précédentes qu’il n’avait jamais rencontré de personnes appartenant à un groupe particulier et que, en réponse à une question ultérieure, il aurait peut-être parlé de la visite de certaines personnes de ce groupe au cours de son tours. Si tel est le cas, il est de toute évidence nécessaire d'examiner cette incohérence et de la clarifier en interrogeant les collecteurs de données.
(5) Il est également nécessaire de vérifier le degré d'uniformité avec lequel les enquêteurs ont suivi les instructions pour la collecte et l'enregistrement des données. Le codage peut être entravé si une réponse est enregistrée dans des unités autres que celles spécifiées dans les instructions.
(6) Il convient de noter que certaines réponses peuvent simplement sembler ne pas être pertinentes aux fins de l'enquête. Cela risque de se produire si une question n'est pas clairement définie ou si elle n'est pas posée intelligemment. Les données doivent donc être soigneusement examinées afin de séparer les réponses inappropriées des réponses appropriées.
La valeur de la catégorisation des données dépend naturellement de la solidité des catégories utilisées. Il est nécessaire que les catégories en plus d'être pertinentes par rapport à l'objectif de la recherche soient également définies d'un point de vue conceptuel.
Le codage ne sera pas fiable si les catégories ne sont pas clairement définies en termes d’indicateurs applicables aux données, ici et maintenant. En pratique, les catégories sont définies à l'aide d'exemples à partir des données en main. Il est très utile que les illustrations tirées des données montrent non seulement le type de réponses qui caractérise la catégorie, mais également la distinction entre les catégories apparemment similaires.
Il est évident que la qualité du codage dépend de la compétence des codeurs. La formation des codeurs est donc une étape importante de toute étude.
La formation des codeurs peut se dérouler comme suit:
Tout d'abord, les différents codes sont expliqués au métier (codeurs) et illustrés à l'aide d'exemples tirés des données à classer.
Deuxièmement, tous les stagiaires-codeurs s'exercent sur un échantillon de données. Les codeurs discutent des problèmes qui se posent en tant que groupe avec le superviseur afin de développer des procédures et des définitions communes.
Troisièmement, les indices résultant du codage par la pratique sont utilisés pour effectuer des révisions dans les catégories afin de mieux les appliquer au matériel et pour mettre par écrit les procédures et les définitions qui ont évolué lors du codage préliminaire.
Quatrièmement, à un moment de la période de pratique où relativement peu de problèmes nouveaux se posent, les codeurs travaillent sur une partie identique des données sans se consulter ni consulter leur superviseur. La cohérence ou la fiabilité du codage est ensuite calculée pour déterminer s’il est possible de commencer à coder de manière sérieuse.
En fonction des résultats des contrôles de fiabilité ou de cohérence, il peut être décidé d’éliminer les catégories qui semblent trop peu fiables, de passer plus de temps à former des codeurs ou d’éliminer les codeurs les plus incohérents, etc.
Enfin, des vérifications périodiques sont effectuées pour s'assurer que les codeurs ne deviennent pas négligents avec plus d'expérience ou qu'ils ne développent pas de méthodes personnelles idiosyncratiques pour traiter de nouveaux problèmes dans le matériau. Pour assurer l'uniformité, toute décision prise après le début du codage doit être communiquée sans délai à tous les codeurs.
De toute évidence, la cohérence et la pertinence avec laquelle un type de réponse est attribué à une catégorie donnée auront une influence importante sur le résultat de l'analyse. Il est donc important de vérifier la fiabilité du codage et d'accroître l'accord entre les codeurs. comme possible.
Il est bien entendu difficile de définir un niveau de fiabilité donné comme norme à atteindre. Différents types de matériaux présentent différents degrés de difficulté pour atteindre la fiabilité. En règle générale, plus le matériel à coder est structuré, et donc plus les catégories utilisées sont simples, plus sa fiabilité est grande.
Il convient de noter que les types de codes utilisés dans une étude diffèrent selon que les données doivent être totalisées à la machine ou à la main. Si les données doivent être triées manuellement, une description par mot des classes est satisfaisante.
Des abréviations ou des lettres d’alpha-bates, telles que «Y pour Oui, « N »pour Non, etc., peuvent également être utilisées. La tabulation des machines, en revanche, nécessite que les classes soient exprimées sous forme de symboles numériques, car les machines ne peuvent être alimentées qu'avec des données numériques.
La tabulation mécanique nécessite l'utilisation de cartes perforées. Cependant, le nombre de classes différentes pouvant être affichées sur la carte perforée est limité. Dans tous les cas, tous les codes utilisés pour la tabulation de la machine peuvent également être utilisés pour la tabulation à la main.
Si des codes doivent être apposés sur des cartes perforées de deux tailles généralement utilisées, à savoir 80 cartes de colonnes et les cartes de 54 colonnes, il est souhaitable d’en utiliser dix sur moins de classes / catégories pour la plupart des informations ou réponses.
La carte perforée contient 10 espaces numérotés et un X et un Y dans chaque colonne, soit un total de 12 codes pouvant être utilisés. Il est assez compliqué d’obtenir plus d’un type d’élément dans une colonne. Par exemple, les codes de nativité et d'âge ne peuvent pas être insérés dans une seule colonne, à moins que six groupes d'âge soient utilisés pour chacune.
Étape # 3. Tabulation:
La tabulation fait partie du processus technique de l'analyse statistique des données. L'élément essentiel de la tabulation est la synthèse des résultats sous forme de tableaux statistiques.
Ce n’est que lorsque les données brutes sont divisées en groupes et que le nombre de cas relevant de ces différents groupes est comptabilisé, qu’il est possible au chercheur de déterminer la signification de ses résultats et de transmettre ses conclusions au consommateur sous une forme permettant: être facilement compris.
La tabulation dépend naturellement de l'établissement de catégories pour les données brutes, de l'édition et du codage de la réponse (perforation et passage des cartes dans des machines pour la tabulation mécanique et le tri et le décompte pour la tabulation manuelle).
Les chercheurs expérimentés développent généralement des plans de tabulation à peu près au même moment où ils rédigent ou construisent les instruments de collecte de données et élaborent des plans d'échantillonnage. Les chercheurs inexpérimentés se préoccupent rarement des plans de tabulation tant que les données n’ont pas été collectées. Bien entendu, il est impossible pour le chercheur de prévoir toute la gamme de tabulations qui sera souhaitée par la suite.
Il doit connaître suffisamment son problème de recherche ou le sujet de son enquête pour pouvoir établir des tableaux qui apporteront des réponses aux questions qui ont motivé l’étude. Le chercheur devrait être en mesure de préparer des plans de tabulation adéquats s’il utilise les résultats des recherches antérieures qui ont des éléments en commun avec celui pour lequel les plans sont établis.
Dans les études exploratoires, une procédure plus efficace et plus sûre consiste à pré-tester l’instrument de collecte de données sur un échantillon de population du type qui serait couvert par l’étude finale. De cette façon, on peut généralement obtenir des indications sur le type de tabulation qui aurait du sens.
La tabulation peut être faite entièrement par des méthodes manuelles; ceci étant connu sous le nom de tabulation de la main. Alternativement, cela peut être fait par des méthodes mécaniques utilisant des machines automatiques et rapides pour la majeure partie des données, le processus étant connu sous le nom de tabulation mécanique.
Le chercheur doit décider, avant d’élaborer des plans de tabulation détaillés pour son étude, de la méthode de tabulation qu’il utilisera. Cette décision sera basée sur diverses considérations telles que le coût, le temps, le personnel, etc.
La tabulation manuelle ainsi que les procédures de tabulation mécaniques ont leurs avantages et leurs inconvénients respectifs. L'alerte du chercheur sur ces avantages et inconvénients est un meilleur moyen de décider quelle méthode conviendrait à son problème.
Nous passerons brièvement en revue les avantages de ces deux méthodes de tabulation:
(1) La tabulation mécanique implique beaucoup de travail de bureau et des opérations spécialisées. Bien sûr, cela facilite la vitesse, mais la vitesse peut ne pas toujours être une compensation adéquate pour un travail de bureau supplémentaire.
(2) Si le nombre et les types de tables souhaités ne sont pas déterminés avant le début des travaux de tabulation, . la tabulation par machine peut être plus pratique. Cependant, si la tabulation manuelle est considérée comme efficace, l'ordre dans lequel les différentes sortes et comptages seraient effectués est déterminé avant la tabulation.
(3) L'un des principaux avantages de la tabulation des machines est qu'elle facilite les classifications croisées. Dans les études à grande échelle où de nombreuses variables doivent être corrélées ou classées de manière croisée, la tabulation à la machine est raisonnablement préférable.
C'est pour cette raison que la tabulation mécanique est utilisée dans les études nécessitant de nombreuses corrélations entre variables. Toutefois, si le nombre total de répondants est faible, leur comptage manuel conformément au principe de classification croisée peut être relativement économique.
(4) Lorsqu'il est nécessaire de disposer de nombreuses informations codées et de plusieurs cartes perforées pour chaque cas, la tabulation manuelle peut être préférable.
(5) Si vous souhaitez conserver les données sous une forme prête pour une nouvelle tabulation avec un préavis relativement court, les cartes perforées sont généralement utiles. La tabulation mécanique est utile pour les études ou enquêtes périodiques dans lesquelles le même type d'informations doit être collecté à des intervalles fréquents.
(6) Le processus de tri et de comptage risque moins de produire des erreurs s’il est effectué à la machine plutôt qu’à la main. Bien sûr, des erreurs peuvent survenir et surviennent effectivement lors de la tabulation de la machine et sont souvent très difficiles à identifier et à vérifier.
Toute erreur découverte lors des étapes de codage, d'édition ou de travail sur le terrain de l'enquête peut constituer un obstacle au travail de tabulation de la machine. Il est donc souvent souhaitable de procéder à la tabulation manuelle en parallèle avec le travail sur le terrain.
(7) Le coût des opérations de tabulation est une préoccupation importante du chercheur. La tabulation des machines entraîne souvent des coûts beaucoup plus élevés, car la plupart des cartes perforées, les frais de perforation et de vérification, les frais de machine pour le tri et la tabulation des machines et les frais de recrutement de services spécialisés d'opérateurs de machines spécifiques représentent souvent bien plus que les coûts réels. tabulation.
(8) Une autre considération importante est le temps. Dans la tabulation mécanique, le travail de tabulation en tant que tel est effectué en très peu de temps, mais les étapes préparatoires ainsi que la formation, la supervision et la non disponibilité éventuelle de certains types de machines en location entraînant une interruption du travail peuvent inévitablement contribuer au gaspillage. de temps.
(9) Les considérations de commodité ne peuvent être ignorées. Si la tabulation mécanique exige l'envoi de données brutes à un bureau éloigné du bureau de projet, des inconvénients liés à l'emballage, au transport, etc. sont causés.
(10) Enfin, la quantité de commentaires à enregistrer et à analyser peut également influer sur le choix des méthodes de tabulation. Dans certaines enquêtes d'opinion, les commentaires textuels des informateurs sont importants. La carte de code à main utilisée uniquement dans la tabulation manuelle peut fournir un espace pour de telles remarques ou commentaires.
Les machines qui gèrent le travail de tabulation sont de plusieurs types. Les développements dans ce domaine ont été extrêmement rapides au cours des dernières années. Certaines machines trient et comptent simplement les cartes, d’autres trient, comptent et affichent les résultats, d’autres sont équipées pour effectuer des opérations statistiques ou des calculs complexes.
Ces dernières machines sont extrêmement complexes et doivent être programmées pour une opération donnée par un spécialiste de la ligne. Un tableau est une exposition de données numériques systématiquement disposée en colonnes étiquetées (verticalement) et en rangées (horizontales).
Un tableau simple ou élémentaire indique de simples comptages des fréquences auxquelles les différentes catégories de chaque ensemble apparaissent dans les données, par exemple, le nombre de personnes de l'échantillon ayant fréquenté le lycée mais n'ayant pas réussi, le nombre de personnes ayant fréquenté collège mais non diplômé et ainsi de suite. Le tableau ci-dessous indique simplement la fréquence des visites de cinquante répondants au cinéma.
En recherche, nous sommes souvent intéressés par la corrélation entre deux variables ou plus, par exemple, l'éducation et le revenu et la fécondité, de simples tableaux (illustrés ci-dessus) montrant la distribution de fréquence des répondants pour une seule caractéristique, par exemple, l'éducation ou le revenu. ou la fécondité, ne nous aide pas à voir la relation entre deux variables ou plus.
Pour voir la relation, vous devez préparer des tableaux croisés ou des tableaux de répartition. De tels tableaux permettent de regrouper les cas qui se produisent conjointement dans deux catégories ou plus, par exemple, la tabulation du nombre de cas qui ont un niveau d'éducation élevé, un revenu faible et qui ont entre 2 et 3 enfants, ou le nombre de cas qui sont faible scolarité, faible revenu et entre 4 et 5 enfants, etc. La forme la plus élémentaire de tableau croisé que les étudiants connaissent bien est le calendrier du collège.
Supposons qu'un chercheur veuille voir la relation entre trois variables: la profession, le revenu et la fécondité. Il doit utiliser un système de tabulation permettant toutes les combinaisons possibles des différentes catégories de ces trois variables.
Les données croisées des données sur un échantillon hypothétique de 100 personnes peuvent être présentées sous:
Dans le tableau ci-dessus, nous avons indiqué le nombre d'enfants en lignes. Cette variable de fécondité a été divisée en cinq catégories: pas de problème, 1 à 2 problèmes, 3 à 4, 5 à 6, 7 et plus. Donc, dans la marge gauche, nous avons ces 5 catégories de fécondité. Nous avons indiqué le revenu de 100 répondants dans les colonnes.
La variable de revenu a été subdivisée en cinq catégories, à savoir inférieure à Rs.200, Rs201-400, 401-600, 601-800, 801-1000. Nous avons donc cinq colonnes correspondant à ces catégories.
Encore une fois, comme nous avons une variable supplémentaire, c’est-à-dire occupation par accommodement, les colonnes de revenus ont été subdivisées en deux parties correspondant aux deux catégories dans lesquelles les occupations ont été divisées, c.-à-d. Occupation des cols blancs et professions des cols bleus. .
Ainsi, nous avons dix colonnes verticales, correspondant au revenu et à l’occupation. Le nombre de lignes horizontales que nous avons pour les catégories de la variable de fécondité est de cinq. Ainsi, nous avons dix colonnes traversées par cinq lignes qui composent le corps de la table.
L'intersection des colonnes et des lignes a effectué 50 (cinquante) cellules ou boîtes. Chacune de ces cases ou cellules contient un nombre particulier de cas qui diffèrent de ceux des autres cellules, que ce soit en termes de revenu ou de profession, de fécondité, en deux ou en totalité. Lisons le tableau pour avoir une idée de ce qu’il représente.
Sur un total de 100 cas, il y en a 25 qui ont entre 3 et 4 problèmes. Sur ces 25 personnes, parmi celles qui ont lu à gauche, 5 personnes (ayant entre 3 et 4 enfants) ont un revenu inférieur à 200 roupies / - et occupent des emplois de cols blancs.
Two persons (with between 3 and 4 children) have income below Rs.200 and are employed in blue- collar occupations. Let us now take the second row. Of the total respondents, 38 have between 1 and 2 children. 11 (in the 7th cell) who have between 1 and 2 children are from the income group Rs.601 to Rs.800 and are employed in white-collar occupation.
This exercise should make it very clear that cross-tabulation is an essential step in the discovery of or testing of relationships among the variables contained in the data.
Tabulation is a means to present data in a summarized form in a way that facilitates the required statistical calculations. Data may, however, be presented in other ways, ie, instead of presenting them in a tabular form, the researcher may present them in the form of diagrams or graphs. Such diagrammatic or graphic representations do have the merit of being intelligible to a less knowledgeable reader.
But they suffer from the limitation that they are not so useful as a basis for statistical calculations. Let us now proceed to discuss the next operation, ie, the statistical analysis of data. Tabulation is a prerequisite or a first step in this direction.
Step # 4. Statistical Analysis of Data :
In research, we are not concerned with each individual respondent. The purpose of research is broader than this. That is, we wish to know much more than simply that a given respondent, for example, has extremely favourable attitude toward disarmament and that another respondent has moderately unfavorable attitudes toward the same issue. But this information is just not enough.
Social science researches are generally directed toward providing information about a particular population of respondents mostly via a sample. The sample of the totality might be asked certain questions related to the problem of our study, or be subjected to some form of observation.
Let us suppose that we have asked a sample of a thousand college students studying in 'post-graduate' classes a series of questions with a view to securing information about their study habits. Our research would thus be directed toward providing information about the 'population' of 'post-graduate' students of which the thousand cases is a sample.
As a necessary step to characterizing this 'population', we would have to describe or summarize the information about study habits that we have obtained on the sample thereof. Tabulation is just a part of this step. In addition, we must estimate the reliability of generalizations of the 'population' from the obtained data. Statistical methods are useful in fulfilling both these ends.