Archives de Catégorie: Articles de Lucas AL HUSSAINI

Le test de QI : entre validité et controverse

 Le test de QI mesure-t-il réellement l’intelligence ? Est-il fiable ou relève-t-il de la controverse ? Telles sont les questions que l’on se pose souvent mais auxquelles on n’obtient jamais de réponses précises. Des chercheurs ont tenté d’éclairer ce sujet.

Un test de QI qu’est-ce que c’est ? C’est le résultat d’un test psychométrique, c’est-à-dire lorsqu’on le lie avec d’autres éléments d’un examen de psychologie, il fournit une indication quantifiée de l’intelligence d’une personne. Cependant, il serait erroné de dire que le QI mesure réellement l’intelligence, mais plus adapté de préciser qu’il établit des comparaisons sur les capacités d’un individu par rapport à une population de référence.

Le test de QI fournit donc un simple indice sur la vivacité intellectuelle de l’individu.

Enistein : QI 160 et vous ?

Einstein : QI 160 et vous ?

Fiable ou pas ?

Suite à la création du premier test d’Alfred Binet en 1905 , Pierre Janet démontre la même année que l’émotion influe considérablement sur l’efficience intellectuelle, que celle-ci est capable de faire chuter ou de stimuler le niveau mental,car l’inhibition intellectuelle, produite par l’anxiété ou l’angoisse de l’échec, empêche l’individu d’exploiter ses ressources intellectuelle de manière optimale. En 1937 , les Américains Terman et Merrill proposent une nouvelle révision du test de Binet avec la cotation de Stern (rapport de l’âge mental sur l’ âge réel, multiplié par 100 ) mais ce mode de calcul n’obtient pas une bonne homogénéité entre les différentes classes d’âge, car la cotation ne rend pas compte de l’intelligence réelle de l’enfant mais de la vitesse de son développement. La controverse sur la révision du test de Binet amène l’Américain David Wechsler, chef de clinique à l’hôpital Bellevue de New York à élaborer une nouvelle échelle de mesure de l’intelligence. Il abandonne donc la notion d’âge mental et opte pour une méthode statistique. Il classe les résultats du sujet à un rang donné par rapport aux résultats de la population globale du même âge. Cette fois-ci, l’échelle est adaptée aussi pour les adultes et emploie un étalonnage en écarts spécifiques à chaque tranche d’âge. Le test de QI de Wechsler prend le profil d’une courbe dans le groupe d’âge et non pas la vitesse de développement de l’individu. La représentation graphique de l’échantillon d’individus testés donne une courbe en cloche, appelée courbe de Gauss, qui correspond à une loi statistique normale de moyenne 100 et d’écart type entre 10 et 15.

Courbe de Gauss - Répartition en cloche

Courbe de Gauss - Répartition en cloche

Ce test est composé de deux échelles, l’ une  »verbale » et l’autre de  »performance ». L’échelle de Wechsler se caractérise par trois tests adaptés chacun à l’âge de l’individu. L’échelle WPPSI-R est  destinée aux enfants de 3 à 7 ans. Ce test est composé de dix épreuves, cinq qui sont de type  »verbal » et le reste de type  »performance ». L’échelle WISC III, destinée aux enfants de plus de 7 ans et aux adolescents, contient un supplément de trois questions du type choix multiple. L’échelle WAIS III s’adresse aux individus de plus de 16 ans et est composée de six épreuves  »verbale », de cinq épreuves  »performance » et de trois épreuves optionnelles qui tiennent comptent de la compréhension verbale, de la mémoire et de la vitesse d’exécution du travail. Ces trois épreuves ne sont donc pas obligatoires mais permettent de mieux comprendre le fonctionnement cognitif de l’individu testé.

Ainsi le QIV ou quotient intellectuel verbal met en évidence les aptitudes du sujet alors que le QIP ou quotient intellectuel performance reflète la mise en évidence des aptitudes de départ de ce sujet.
Quand l’écart entre le QIV et le QIP n’est pas important, l’individu a un profil homogène, il arrive donc à mettre en œuvre ses aptitudes, sinon on parle de  »distorsion » et on saura que la personne a des problèmes d’exploitation de son potentiel sans qu’on en connaisse les raisons.

De nos jours, les échelles de Wechsler sont souvent utilisées pour évaluer un individu et sont valides dans la plupart des pays.
En France, uniquement les échelles Wechsler et le K-ABC (un autre test) sont scientifiquement attestés et approuvés.
Ces échelles sont régulièrement révisées afin d’être adaptées à l’évolution des connaissances. Le quotient intellectuel minimal mesurable s’élève à un QI de 40 alors que celui qui est maximal s’élève à 160.
Il faut noter que le test a été à la base créé pour mesurer la déficience intellectuelle située à un QI de 70, pour pouvoir prendre l’individu en charge.

Publicités

Etude de cas : le R2000

Les doutes sur la fiabilité des tests de QI étant fréquents, les tests de raisonnement les ont remplacés car ils sont jugés plus valides. Malgré le fait qu’ils ne puissent pas mesurer l’intelligence au sens large, ils peuvent évaluer des capacités spécifiques telles que l’intelligence fluide, la mémoire ou encore l’intelligence spatiale. Ainsi ces tests représentent un argument pertinent dans le jugement des capacités cognitives d’un individu.

Le R2000 : un aboutissement des tests de raisonnement

Le R2000 est le fruit de plusieurs années de travail et de mises à jour en matière de tests de raisonnement. Au même titre que son ancêtre, le R85, le R2000 est composé de 40 items et résulte de plusieurs procédures.
Après différentes phases de sélection d’items, 120 ont été retenus à la base, repartis sous deux formes expérimentales d’items, de 60 items chacune. Certains items proviennent du test d’origine, le R85, d’autres sont des items équivalents à ceux du test, et enfin le reste a été créé. Ces deux formes ont ainsi été testées sur 169 et 144 individus respectivement pour les formes A et B tout en respectant un niveau de difficulté croissant. Le but est d’étudier la pertinence du test en établissant des analyses statistiques d’items. Dans ce type d’analyse, le calcul d’un coefficient phi ( corrélation entre réussite de l’item isolé et réussite dans l’ensemble du test ) est nécessaire. Il  permet, par ailleurs, de vérifier que l’item en question fait une différenciation des sujets entre deux groupes, ceux qui ont obtenu les scores les plus élevés, et ceux qui ont obtenu les scores les moins élevé. Si le coefficient, compris entre -1 et 1, est plus proche de 1, alors la réussite de l’item est en accord avec la réussite de l’ensemble du test. Cependant, la signification du coefficient n’est pas l’unique condition pour sélectionner les items. En effet,  ceux ayant un phi significatif doivent aussi présenter un taux de réussite compris entre 30% et 70% pour être retenus.
Ainsi, 44 items dont certains provenant du R85, ont été retenus dans la forme A, composée de 20 verbaux, 14 numériques et 10 mixtes, et 41 items ont été retenus dans la forme B composée de 20 verbaux, 10 numériques et 11 mixtes. Suite à cette étape et aux résultats satisfaisants obtenus, la mise au point d’une forme commune provisoire a été établie. Tous les items provenant du R85 ont été cependant supprimés et cette forme provisoire de 45 items, tous nouveaux, constitue le R2000 provisoire. Enfin, comme son ancêtre le R85, la forme provisoire composée de 45 items a été modifiée et réévaluée à une forme de 40 items définitifs, composés de 15 verbaux , 15 numériques et 10 mixtes. Le R2000 fera l’objet d’un recueil de données pour les études de validité et la construction de tables d’étalonnages. Pour plus d’informations sur les tests de raisonnement vous pouvez visiter le site suivant.

Une nouvelle cotation en classe d’étalonnage

Une fois le test mis en service, il a été soumis à un échantillon de 625 individus. Des répartitions d’échantillons ont été faites selon le sexe de l’individu, sa tranche d’âge, son niveau d’étude et sa profession. L’étude des comparaisons de moyenne entre différents échantillons a permis de mettre en évidence des différences significatives entre ces groupes : les résultats des individus préparant un concours d’entrée dans une école prestigieuse sont supérieurs à la normale. D’autre part, les résultats des hommes d’un côté et des femmes de l’autre sont différents.
Ainsi, des courbes d’étalonnage distinctes entre hommes et femmes, et entre hommes avec femmes et individus préparant les concours ont pu être élaborées, respectant une échelle d’une classe allant de 0 pour un résultat d’items inférieur à 5 , à une classe de 10 pour un résultat d’items réussi supérieur à 28 sur 40. (À noter que chaque courbe d’étalonnage a sa propre échelle)

Les élèves de 1ère S face au R2000

Nous avons fait passer le R2000 à un groupe d’élèves en classe de 1ère, malgré le fait que ce test s’adresse à des sujets de plus de 18 ans. Ceci explique que les résultats soient en moyenne inférieurs à ceux obtenus sur l’échantillonnage type du R2000.
Nous avons suivi le protocole de passage du test à la lettre : chaque élève doit répondre à un maximum d ‘items dans un temps imparti de 20 minutes. Nous avons pu constater que la grande majorité du groupe n’a pas répondu à plus de 20 items du test.

Voici les moyennes et les écarts-types obtenus : (voir le tableau et le résumé ci-dessous)

9,5 items réussis en moyenne chez les femmes
12,2 items réussis en moyenne chez les hommes
10,73 items réussis en moyenne générale
Écart-type de 3,09 chez les femmes
Écart-type de 5,63 chez les hommes
Écart-type de 4,63 en générale

En comparaison avec les moyennes de chaque individu à l’école nous pouvons voir que dans dans plusieurs cas, l’ensemble du test réussi est cohérent avec la moyenne de l’individu à l’école. En effet la majorité des élèves présentant une moyenne de plus de 13 à l’école en 1ère a obtenu un bon score (plus que la moyenne générale des élèves testés de 3 points soit plus de 14 items corrects) et ceux présentant une moyenne inférieure ou égale à 11 à l’école ont obtenu un score relativement faible (moins que la moyenne générale de 2 points soit moins de 9 items corrects). Hormis quelques cas , dont un élève ayant une moyenne de 11 à l’école qui a répondu a 16 questions correctement et un autre ayant une moyenne de 13 qui a répondu à 8 questions correctement,  nous pouvons dire qu’en établissant un comparatif entre les notes de l’individu au test et sa moyenne à l’école, le test donne un indice sur certaines capacités spécifiques de l’individu, malgré le fait qu’il ne soit pas totalement fiable.

Pour aller plus loin, nous avons décidé de calculer le coefficient phi de chaque item. Pour cela nous avons réparti les élèves en deux groupes : un groupe  »supérieur » comprenant les élèves qui ont obtenu un résultat supérieur à la moyenne et un groupe  »inférieur » contenant les élèves ayant obtenu un résultat inférieur à la moyenne et ce,  pour vérifier si dans le cas de cet échantillon, la corrélation entre un item et l’ensemble du test est cohérente. (Voir l’exemple de calcul du coefficient phi pour l’item isolé numéro 2 ci-après). Malheureusement, le coefficient phi étant relativement assez faible voire négatif (proche de -1 pour certains), il  n’est pas réellement significatif, ne permet pas de différencier chaque individu et ne présente donc pas de pertinence dans ce cas établi.

Tableau représentant les résultats du groupe d'élèves

Les colonnes F1 à H11, de gauche à droite, représentent les réponses correctes aux items (le chiffre 1 signifie que la réponse est correcte). Ensuite les deux colonnes suivantes représentent la réussite des items tout groupe confondu en pourcentage et en valeur effective. Puis, à la droite de ces colonnes, on voit le nombre d’items corrects chez les hommes et chez les femmes. Enfin dans la dernière colonne, à l’extrême droite, le coefficient phi de chaque item.

Calcul du coefficient phi : Ce calcul nécessite l’emploi d’un tableau  à double entrée et d’un classement de deux groupes, supérieurs et inférieurs, établi en fonction des résultats de chaque individu au test. Ainsi 4 individus ont été classés dans le groupe supérieur et 7 dans le groupe inférieur. Prenons le cas de l’item isolé numéro 2. Notons a, b, c, d, e, f, g et h, les variables associées aux valeurs suivantes :
a= nombre de personnes du groupe S (supérieur) ayant réussi l’item soit 3
b= nombre de personnes du groupe I (inférieur) ayant réussi l’item soit 3
c=  nombre de personnes du groupe S n’ayant pas réussi l’item soit 1
d= nombre de personnes du groupe I n’ayant pas réussi l’item soit 4
e= nombre de personnes des deux groupes ayant réussi l’item  soit 6
f= nombre de personnes des deux groupes n’ayant pas réussi l’item  soit 5
g= nombre total de personnes du groupe S soit 4
h= nombre total de personnes du groupe I soit 7

Phi a pour formule :

Calcul de phi

Ainsi phi=  0,31

Ceci indique que l’item 2 est cohérent avec le test vu qu’il affiche un taux de réussite compris entre 30 et 70% et que son coefficient phi est relativement proche de 1.

Ainsi, les tests de raisonnements comme le R2000 évaluant l’intelligence fluide d’un individu , présentent une pertinence au niveau psychologique (dans le domaine professionnel, lors d’un entretien d’embauche…), mais il n’existe actuellement aucun test qui mesure l’intelligence en elle-même.

L’intelligence, un enjeu majeur de la science

‘’L’Homme est le seul animal dont l’action soit mal assurée, qui hésite qui tâtonne, qui forme des projets avec l’espoir de réussir et la crainte d’échouer. C’est le seul qui se sent sujet à la maladie et le seul aussi qui sache qu’il doit mourir.’’

A dit Henri Bergson. Il en découle l’idée que la réflexion et plus précisement, l’intelligence est le propre de l’Homme. Et bien que les animaux possèdent des facultés intellectuelles certaines, elles sont beaucoup plus prononcées chez l’Homme. C’est sans doute pour cette raison que les scientifiques se sont intéressés a ce concept et ce, grâce a une technologie toujours plus performante. Ainsi les chercheurs ont- ils trouvé plus de réponses sur ce sujet les  10 dernières années qu’en 500 ans. La définir, expliquer son fonctionnement et tenter de la mesurer, tels sont les enjeux  des savants du XXIème siècle.