Le QI prédit-il une carrière réussie?

Le QI joue un rôle de premier plan dans la psychologie du développement et de l’adulte depuis des décennies. Cependant, en l’absence d’un modèle théorique clair des fonctions cognitives internes, il a toujours été difficile d’établir la validité des tests de QI. La validité des tests a donc toujours été indirecte, en corrélant les différences individuelles dans les résultats des tests avec ce qui est supposé être d’autres critères d’intelligence. Pour plusieurs raisons, le rendement au travail a été l’un de ces critères. Des corrélations d’environ 0,5 ont été régulièrement citées comme preuve de la validité des tests et comme justification de l’utilisation des tests dans les études sur le développement, dans la formation et la sélection professionnelle et dans les programmes de recherche sur les sources des différences individuelles. Ici, ces corrélations sont examinées en même temps que la qualité des données originales et les nombreuses corrections nécessaires pour y parvenir. Il est conclu qu’il faut faire preuve d’une grande prudence en citant ces corrélations à des fins de validation des essais.

Le QI est maintenant utilisé comme mesure du fonctionnement cognitif depuis plus d’un siècle. Il a joué un rôle de premier plan dans les études sur le développement à bien des égards: en tant qu’indice du développement normal; pour les diagnostics cliniques; en tant que descripteur des différences individuelles dans les capacités cognitives; en tant qu’explication des différences de rendement ou de réussite dans le monde; en tant que prédicteur de la réussite future comme dans les études, la formation et la sélection professionnelle; et en tant qu’indice pour explorer les causes des différences individuelles dans les capacités cognitives. Par exemple, on soutient que la recherche actuelle d’associations entre les variations génétiques moléculaires et le QI « transformera à la fois la psychologie du développement et la psychopathologie du développement » (Plomin et Rutter, 1998, p. 1223; voir aussi Plomin, 2013). De même, Kovas, Haworth, Dale et Plomin (2007) affirment que leurs conclusions sur l’héritabilité du QI « ont des implications profondes pour l’éducation et le développement de l’enfant ainsi que pour la génétique moléculaire et les neurosciences » (p. vii). De toute évidence, beaucoup dépend de la validité du test, d’autant plus que de telles études sont très coûteuses.

 

La validité d’un test de QI – ou ce qu’il mesure réellement – a toujours été un sujet difficile. Depuis Galton dans les années 1880 (1883) et Spearman (1927) un peu plus tard, on a largement supposé que le test mesure « l’intelligence », communément appelée « aptitude cognitive générale » ou g. L’identité de cette aptitude, cependant, n’ a jamais été convenue; sa fonction n’ a été caractérisée métaphoriquement que comme une sorte d’énergie, de puissance ou de capacité cognitive envahissante, par analogie avec la force physique. En conséquence, sa mesure a toujours été indirecte, créant un débat et une controverse perpétuels sur la validité des tests. Cet article traite d’une telle validité.

Validité des tests de QI

Dans la méthode scientifique, nous acceptons généralement les différences externes observables comme une mesure valide d’une fonction invisible lorsque nous pouvons mécaniquement relier les différences dans l’une à celles dans l’autre (par exemple, la hauteur d’une colonne de mercure et la tension artérielle; le nombre de globules blancs et l’infection interne; le taux de sédimentation des érythrocytes (SRE) et les niveaux internes d’inflammation; l’alcool dans l’haleine et le niveau de consommation). Ces mesures sont valables car elles s’appuient sur des modèles théoriques détaillés et largement acceptés des fonctions en question. Il n’existe pas de théorie de ce genre pour les capacités cognitives ni, par conséquent, de la véritable nature des différences individuelles dans les fonctions cognitives. Un certain nombre d’analyses des corrélations inter-corrélations d’aspects des résultats de tests ont produit des théories sur la structure statistique des modèles de notation, comme dans la théorie Cattell-Horn-Carroll (voir McGrew, 2005); mais ce n’est pas la même chose que la caractérisation détaillée de la fonction elle-même. Par conséquent, comme le dit Deary (2001), »il n’ y a pas de théorie des différences d’intelligence humaine – et non pas de la façon dont les sciences des adultes comme la physique ou la chimie ont des théories » (p. ix).

La stratégie de rechange a consisté à tenter d’établir indirectement la validité des tests, en comparant une mesure proposée à ce qui est considéré comme une autre expression de l’intelligence. Galton (1883) a choisi les différences d’estime sociale; par la suite, les performances scolaires et les différences liées à l’âge ont été choisies. En général, lors de la construction d’un test, on conçoit des problèmes cognitifs ou des éléments susceptibles d’engager certains aspects de l’intelligence pour les présenter aux personnes testées lors des essais. Les éléments sur lesquels les différences de performance concordent avec les différences du critère sont rassemblés pour constituer un test d’intelligence. Il existe de nombreux autres aspects techniques de la construction d’essais, mais cela reste le fondement essentiel. Ainsi, presque tous les tests contemporains, comme ceux de Stanford-Binet ou de Woodcock-Johnson, s’appuient sur des corrélations de résultats avec ceux d’autres tests de QI ou de réussite pour prouver leur validité.

Cependant, la question de savoir si une telle procédure mesure la capacité cognitive fondamentale (ou g) supposée a continué de hanter le champ. Mesurer ce que nous pensons être mesuré est connu sous le nom de validité conceptuelle de l’essai – ce qui, par définition, ne peut pas être mesuré indirectement. Généralement, un test est valable pour mesurer une fonction si (a) la fonction existe et est bien caractérisée; et (b) les variations de la fonction causent manifestement des variations dans les résultats de mesure. La recherche sur la validation devrait être axée sur cette dernière, et non seulement sur la relation entre ce qui est en fait supposé être des tests indépendants de cette fonction (Borsboom, Mellenberg et van Heerden, 2005).

Il est vrai que diverses tentatives ont été faites pour corréler les résultats des tests avec certaines mesures corticales/physiologiques afin d’identifier l' »efficacité » cérébrale comme le noyau de l’intelligence. Toutefois, comme le soulignent Nisbett et coll. (2012), dans leur étude pour l’American Psychological Association, de telles études ont été incohérentes:

Les modèles d’activation en réponse à diverses tâches de raisonnement fluide sont divers, et les régions du cerveau activées en réponse à des types de raisonnement apparemment similaires (inductifs, déductifs) semblent être étroitement associées au contenu et au contexte de la tâche. La preuve n’est pas conforme à l’opinion selon laquelle il existe un substrat neuronal de raisonnement unitaire. (p. 145)

Haier et coll. (2009) concluent de même, après des résultats incohérents similaires, que « l’identification d’un » neuro-g « sera difficile » (p. 136). Des associations ont également été recherchées entre diverses tâches élémentaires telles que le temps de réaction et les résultats aux tests de QI. Celles-ci ont été difficiles à interpréter parce que les corrélations sont (a) faibles (laissant une variance considérable, ainsi que des causes vraies, inexpliquées) et (b) sujettes à une variété d’autres facteurs tels que l’anxiété, la motivation, l’expérience de l’équipement et la formation ou l’expérience de divers types comme le jeu vidéo (p. ex., Green & Bavelier, 2012).

Par conséquent, la validation des tests de QI a continué de se fonder sur la corrélation avec d’autres tests. Autrement dit, la validité des tests a été forcée de se fier non pas à l’étalonnage avec des processus internes connus, mais à la corrélation avec d’autres expressions présumées, ou critères, de l’intelligence. C’est ce qu’on appelle habituellement la validité « prédictive » ou « critère ». Dans presque toutes les demandes de QI fondées sur la validité, ces critères ont été le niveau d’instruction, le niveau professionnel et le rendement au travail.

Les prédictions du QI

Il est sans doute vrai que des corrélations modérées entre le quotient intellectuel et ces critères ont été rapportées. Par exemple, dans leur étude récente, Nisbett et coll. (2012) affirment que « la mesure de l’intelligence – qui a été faite principalement par les tests de QI – a une valeur utilitaire parce qu’elle est un bon indicateur des notes à l’école, du rendement au travail et de nombreux autres aspects de la réussite dans la vie » (p. 2). Mais dans quelle mesure ces corrélations sont-elles exactes et significatives?

Il est généralement admis que les résultats des tests prédisent modérément bien les résultats scolaires, avec des corrélations d’environ 0,5 (Mackintosh, 2011). Le problème réside dans la possibilité d’auto-réalisation de cette prédiction, car les mesures ne sont pas indépendantes. Il s’agit simplement de versions différentes du même test. Depuis les premiers concepteurs de tests tels que Binet, Terman et d’autres, des éléments de test ont été conçus, soit en tenant compte des types de connaissances et de raisonnement enseignés aux enfants dans les écoles, soit en essayant de faire correspondre une impression des processus cognitifs requis dans les écoles. Cet appariement est un processus intuitif plutôt que théoriquement guidé, même avec des éléments non verbaux comme ceux des matrices de Corbeau. Comme Carpenter, Just, and Shell (1990) l’ a expliqué après avoir examiné les notes personnelles de John Raven, »… la description des capacités que Raven avait l’intention de mesurer sont principalement des caractéristiques des problèmes, et non des spécifications des processus cognitifs requis » (p. 408).

En d’autres termes, une corrélation entre le QI et le rendement scolaire peut se manifester parce que les éléments du test exigent le type même de structures linguistiques et cognitives (apprises) qui sont aussi la monnaie de la scolarisation (Olson, 2005). Comme Thorndike et Hagen (1969) l’ont expliqué, »De la façon même dont les tests ont été assemblés,[cette corrélation] ne pourrait guère être autrement » (p. 325). La preuve en est que les corrélations entre le QI et les tests de rendement scolaire tendent à augmenter avec l’âge (Sternberg, Grigorenko et Bundy, 2001). C’est la raison pour laquelle le dynamisme et l’encouragement des parents dans l’apprentissage scolaire de leurs enfants améliorent le QI des enfants, comme le confirment de nombreux résultats (Nisbett, 2009; Nisbett et al., 2012).

Des doutes similaires surgissent autour de l’utilisation du niveau professionnel, du salaire, etc. comme critères de validation. Étant donné que le rendement scolaire est un facteur déterminant du niveau d’entrée sur le marché du travail, la corrélation (r? 0,5) souvent rapportée entre le QI et le niveau professionnel, et donc le revenu, peut aussi être, du moins en partie, autofinancée (Neisser et al., 1996). Encore une fois, les mesures peuvent ne pas être indépendantes.

La question cruciale est donc de savoir si les scores de QI permettent de prédire les différences individuelles dans la mesure apparemment plus indépendante du rendement au travail. En effet, la corrélation des scores de QI avec le rendement au travail est régulièrement citée comme étant le fondement de la validité des tests de QI. Furnam (2008) reflète probablement la plupart des points de vue lorsqu’il affirme qu' »il existe une documentation abondante et convaincante démontrant que l’intelligence est un bon prédicteur du rendement au travail et de la compétence en matière de formation au travail » (p. 204). Dans un autre commentaire fort, Kuncel et Hezlett (2010) appellent « cette solide littérature » des « faits » (p. 342). Selon Ones, Viswesvaran et Dilchert (2005), »Les données sont très claires:[les capacités cognitives mesurées] sont le trait de distinction individuel le plus puissant qui prédit le rendement au travail[…] Ne pas s’ y fier pour la sélection du personnel aurait de graves répercussions sur la productivité. Il n’ y a pas d’échappatoire ni de désir d’échapper à ce fait « (p. 450; voir aussi Ones, Dilchert, & Viswesvaran, 2012). Drasgow (2012) qualifie cette corrélation d' »incontestable », et Hunter et Schmidt (1983) y attachent même une valeur monétaire lorsqu’ils affirment que l’économie américaine (même à ce moment-là) épargnerait 80 milliards de dollars par année si la sélection des emplois était fondée universellement sur le test du quotient intellectuel.

Malheureusement, presque tous les auteurs se contentent de citer sans critique les sources primaires à l’appui de leurs déclarations (pour les exceptions, voir, par exemple, Wagner, 1994, et dans les sections suivantes). Au lieu d’examiner la véritable nature de la preuve, une conviction relative à une « littérature importante et convaincante » semble s’être développée à partir d’un nombre relativement restreint de méta-analyses sur une série cumulative de citations secondaires (Furnham, 2008, p. 204). Il semble donc important d’examiner de plus près la qualité des données et la méthode qui sous-tendent les associations très citées entre le quotient intellectuel et le rendement au travail, ainsi que la façon dont elles ont été interprétées. Il ne s’agit pas ici de faire un examen exhaustif de ces études, ni d’offrir une critique radicale des méta-analyses, qui ont de nombreux usages légitimes. En effet, l’approche conçue par Schmidt et Hunter (1998), dont nous discutons ensuite, a apporté beaucoup d’attention et de discipline dans ce domaine et nous convenons avec Guion (2011) qu’elle doit être reconnue comme une avancée méthodologique majeure. Notre but est plutôt de mettre l’accent sur le soin nécessaire à l’interprétation des corrélations lorsqu’elles sont fondées sur des corrections apportées à des données originales de qualité incertaine et qu’elles sont ensuite invoquées comme preuve de la validité du test de QI.

Prédire la réussite profesionnelle en fonction du score QI

Contrairement à la confiance que l’on retrouve dans les rapports secondaires, même un examen superficiel des sources primaires montre qu’elles sont très variables en termes de qualité et d’intégrité des données, impliquant souvent de petits échantillons et des mesures disparates généralement obtenues dans le cadre de contraintes pratiques difficiles au sein d’une seule entreprise ou institution. Leur effet collectif résulte principalement de leur combinaison dans quelques méta-analyses bien connues. Des centaines d’études antérieures aux années 1970 ont rapporté que les corrélations entre les tests de QI et le rendement au travail étaient faibles (environ 0,2-0,3) et variables (révisées par Ghiselli, 1973). Ces résultats ont été largement acceptés comme représentatifs des contextes disparates dans lesquels les gens travaillent réellement. Par la suite, Schmidt et Hunter (2003, pour un compte rendu historique) ont raisonnablement considéré la possibilité que la grande quantité de résultats ait été atténuée par divers artefacts statistiques, y compris l’erreur d’échantillonnage, le manque de fiabilité des instruments de mesure et la limitation de l’intervalle. Ils ont mis au point des méthodes pour corriger ces artefacts et incorporer les études aux méta-analyses. Les corrections ont doublé les corrélations à environ 0,5. Presque toutes les études citées en faveur de la validité du QI proviennent soit des méta-analyses de Schmidt et Hunter, soit d’autres études utilisant les méthodes de correction mises au point à leur intention.

L’approche de Schmidt et Hunter (1998), telle que conçue initialement, semblait relativement simple. Premièrement, les résultats ont été colligés à partir d’autant d’études que possible. Ensuite, la variance due à l’erreur d’échantillonnage dans les corrélations déclarées (observées) a été estimée. Ensuite, la moyenne des corrélations observées a été calculée et corrigée pour tenir compte du manque de fiabilité de la mesure dans le critère (c. -à-d. le rendement au travail) et de la restriction de l’intervalle dans les mesures des prédicteurs et des critères. Cela a produit les résultats maintenant si largement cités dans la justification de la validité des tests de QI (Hunter, Schmidt, & Jackson, 1982; Schmidt & Hunter, 1977,1998).

Hunter et Hunter (1984) ont d’abord signalé l’application de ces méthodes – communément appelées « généralisation de la validité » ou VG – aux centaines d’études examinées par Ghiselli (1973). En outre, ils ont rapporté une autre méta-analyse de 515 études réalisées par le U. S. Employment Service à l’aide de la General Aptitude Test Battery (GATB). Cela a produit des corrélations corrigées dans la plage de 0,5-0,6. Des résultats similaires ont été rapportés lors de l’application des mêmes méthodes dans des études plus récentes. Par exemple, dans des méta-analyses d’études européennes et britanniques, Salgado et coll. (2003) et Bertua, Anderson et Salgado (2005) ont trouvé des corrélations brutes entre 0,12 et 0,34, selon la catégorie d’emploi. Cependant, toutes les corrélations ont pratiquement doublé sous correction. Lang, Kersting, Hülsheger et Lang (2010) rapportent des résultats similaires de la méta-analyse de 50 études en Allemagne.

Doutes à propos de ces études (rapport QI/performance au travail)

Ce sont ces corrélations corrigées des méta-analyses qui sont presque universellement citées en faveur du QI comme prédicteur du rendement au travail (et, par conséquent, que le QI mesure réellement quelque chose qui peut être appelé intelligence ou aptitude générale). Mais de nombreux doutes ont été exprimés quant à ces méthodes, et les résultats ont fait l’objet de critiques constantes. En général, les méta-analyses sont rarement simples et parfois controversées. Bien qu’elles soient sans aucun doute utiles dans de nombreux domaines, comme le dit Murphy (2003), elles sont souvent perçues avec répugnance parce qu’elles mêlent de bonnes et de mauvaises études et qu’elles encouragent l’établissement de conclusions solides à partir de données souvent faibles. Dans les études sur le rendement au travail du QI en question, les contrôles de la qualité sont souvent difficiles parce que les rapports originaux n’ont pas été publiés, parfois avec des parties de données originales perdues. De plus, les corrections elles-mêmes impliquent de nombreuses hypothèses, par exemple sur la normalité des distributions et le caractère aléatoire des effets, qui sont rarement énoncées dans les rapports primaires (Murphy, 2003). Landy (2003) les décrit comme « l’équivalent psychométrique de l’alchimie » (p. 157). Les critiques porteront ici sur la qualité des données primaires et la fiabilité des corrections méta-analytiques. Examinons d’abord les instruments de mesure utilisés.

Les nombreux substituts des tests de QI

Même si elles sont bien intentionnées, la plupart des études ont été réalisées dans des circonstances difficiles, de sorte que la conception de l’étude, y compris le choix du test, a souvent été fondée sur la commodité plutôt que sur des principes de précision empirique. Par conséquent, une grande variété de tests vaguement mentaux a été adoptée dans les études individuelles et incorporée aux méta-analyses, en supposant qu’ils mesurent essentiellement la même chose (par implication « intelligence générale » ou g). Outre les instruments psychométriquement validés traditionnels (p. ex., l’échelle d’intelligence des adultes de Wechsler, les matrices progressives de Raven ou la batterie de tests d’aptitude générale du service d’emploi des États-Unis), les études comprennent des tests de mémoire de travail, des tests de lecture, des tests d’aptitude scolaire (SATS) et des tests d’admission à l’université, tous effectués dans le cadre de méta-analyses en tant que mesures substitutives du QI. Parfois, un facteur « général » a été déduit en tant que composite de tests « d’habileté spéciale » (p. ex. vitesse perceptuelle, mémoire; Lang et al., 2010), ou en renommant le concept « aptitude mentale générale » (GMA) comme « un autre nom pour g » (James et Carretta, 2002, p. 13).

L’étude européenne de Salgado et al. (2003) fournit une illustration de la variété des tests utilisés dans la méta-analyse. Ils comprennent « (a) les piles: DAT, GATB, T2, T2, ASDIC, Intelligence Structure Test (IST-70), Wilde Intelligence Test (WIT), GVK, PMA et Aptitudes Mentales Primarias (AMPE); (b) les tests g »: Raven’s Progressive Matrices, Cattell’s Culture Fair Tests, Otis Employment Test, Alpha Test, Logique Intelligence, CERP, Domino, D-48, NIIP-33 « (Salgado et al., 2003, p. 1070). Cette catégorisation implique que les « piles » et les « tests g » mesurent quelque chose de différent les uns des autres – si oui, quoi? Plus important encore, les études qui les utilisent couvrent une vaste gamme de dates, certaines datant des années 1920, alors que la majorité datent d’avant 1970. Bien entendu, ceux-ci ne tiendront pas compte de l' »effet Flynn » – l’augmentation intergénérationnelle substantielle des scores moyens de QI – qui affecte différemment les différents tests et affecte les variances et les distributions ainsi que les moyens (Flynn, 2007; Wai & Ptallaz, 2011). De même, avec la méta-analyse de Bertua et al (2005) de 60 études britanniques: les études datent des années 1920 à 1980, et ont utilisé un éventail tout aussi large de tests disparates.

La forte proportion d’études originales impliquant des hommes et des femmes servant dans les forces armées ajoute à l’incertitude. Ils ont utilisé un large éventail de tests spécialisés et polyvalents, tels que le test de qualification des forces armées, le test de renseignement de l’armée australienne et la batterie d’aptitude professionnelle du service armé. Parfois, les mesures ont été réduites statistiquement à une seule composante de la variance, ou facteur primaire, avant la méta-analyse (p. ex., Olea et Ree, 1994). La justification habituelle est que tout facteur général condensé à partir des scores inter-corrélés peut être supposé représenter g et, par conséquent, que les tests sont de véritables tests d’intelligence (même si un facteur général ne couvre généralement qu’environ 50 % de la variance des scores). Il est toujours possible, bien sûr, que différents corrélats, même si la résolution en tant que « facteur statistique commun », ne soit peut-être pas la même chose, ou même la même chose qu’on le croit, de sorte qu’une mauvaise caractérisation peut se produire. Dans le cas des performances aux tests mentaux, le facteur général peut même ne pas être d’origine cognitive (Richardson, 2002; voir les sections suivantes).

Comme le dit Murphy (2003), l’hypothèse selon laquelle ces mesures, avec des propriétés, des distributions et ainsi de suite disparates, peuvent être combinées comme si une seule variable uniforme pouvait entraîner de graves problèmes dans la méta-analyse, y compris un « manque de clarté dans l’estimation du paramètre de la population » (p. 31). Murphy et Newman (2003) ajoutent que « si plusieurs centaines d’études prétendent chacune mesurer la capacité et le rendement, mais qu’elles utilisent des mesures extrêmement différentes de l’une ou des deux constructions, la corrélation moyenne entre la capacité et le rendement dans ces études pourrait être difficile à interpréter » (p. 414). Burke et Landis (2003) se plaignent également du traitement « cavalier » des questions de construction dans les méta-analyses.

Rendement au travail?

Contrairement à la grande diversité des tests de prédicteurs, la mesure du rendement au travail a presque toujours consisté en la notation des superviseurs. Ceux-ci, bien entendu, doivent être fiables, valides et exempts de partialité, quelle qu’en soit la source. Malheureusement, comme pour les tests d’aptitude, les exigences strictes sont souvent négligées (Guion, 2006). Il s’avère qu’il y a un certain nombre de problèmes avec de telles évaluations (Woerh, 2011).

Le principal problème est que les superviseurs ont tendance à être subjectifs et à utiliser des critères incohérents lorsqu’ils jugent du rendement. Cela n’est guère surprenant, étant donné la difficulté de définir ce qu’est une bonne ou une mauvaise performance. Comme Gottfredson (1991) l’ a fait remarquer, »il suffit de demander à un groupe de travailleurs occupant le même emploi de suggérer des critères de mesure spécifiques pour cet emploi afin d’apprécier à quel point il est difficile de parvenir à un consensus sur ce qui constitue un bon rendement et comment il peut être mesuré équitablement » (p. 76). De plus, divers biais systématiques sont évidents: on a signalé des effets d’âge et des effets de « halo » (p. ex., Murphy et Balzer, 1986). Il a été démontré que la taille des sujets (Judge & Cable, 2004), l’attractivité faciale (Hosoda, Stone-Romero et Coats, 2003) et les préjugés ethniques inconscients (Berry, Clark et McClure, 2011; Jencks, 1998; Stauffer et Buckley, 2005) ont tous influé sur les cotes de rendement des superviseurs. En décrivant les difficultés, dans sa propre expérience, de la recherche d’évaluations objectives des superviseurs pour un large éventail d’emplois, Guion (2006) dit: »Peut-être devrions-nous, en effet, abandonner le simulacre de critères » objectifs « , » vrais « ou » durs « de compétence en matière de performance » (pp. 268-269).

Il n’est donc peut-être pas surprenant que les cotes des superviseurs aient des corrélations plutôt faibles avec des critères plus objectifs comme les échantillons de travail ou le rendement du travail (Bommer, Johnson, Rich, Podsakoff et Mackenzie 1995; Cook, 2009; Heneman, 1986). Schmidt, Hunter et Outerbridge (1986) le situent pratiquement à zéro. Dans une étude sur les vendeurs, Vinchur, Schippmann, Switzer et Roth (1998) ont constaté qu’une corrélation de 0,40 avec les notes des superviseurs, mais seulement de 0,04 avec les ventes objectives, est apparue chez les « capacités cognitives générales ». Roth, Bobko et McFarland (2005) ont trouvé une corrélation moyenne observée de seulement 0,26 entre les tests d’échantillons de travail et les mesures du rendement au travail (principalement les cotes des superviseurs) et une corrélation de seulement 0,33 entre les tests d’échantillons de travail et la « capacité cognitive générale ». Il est donc un peu étrange que Hunter (1986) signale qu’IQ/GMA a prédit que les cotes de l’échantillon de travail étaient encore meilleures que les cotes des superviseurs, ce qui suggère peut-être qu’ils mesurent différentes choses.

Un autre problème est la difficulté qu’ont éprouvée les enquêteurs à établir la fiabilité des cotes attribuées aux superviseurs. Il est bien entendu nécessaire d’avoir des données fiables et précises pour corriger les corrélations. Mais elles ne sont généralement disponibles que pour une minorité des études incorporées dans les méta-analyses couramment citées. La stratégie de Schmidt et Hunter et d’autres méta-analystes a consisté à extrapoler simplement à partir de la moyenne des données effectivement disponibles. Bien entendu, cette stratégie implique de nombreuses hypothèses sur la représentativité, le caractère aléatoire, l’uniformité des échantillons disparates, etc. En utilisant une telle stratégie, Hunter et Hunter (1984) ont supposé une fiabilité de 0,6 pour leurs corrections, que certains chercheurs ont jugée trop faible (Hartigan et Wigdor, 1989). Bertua et al (2005) ont utilisé le même chiffre pour leur méta-analyse des études britanniques. De plus, cette estimation était fondée sur la fiabilité interévaluateurs. Murphy et DeShon (2000) soulignent que les différences entre les évaluateurs ne devraient pas être considérées comme des erreurs à corriger parce que différents évaluateurs peuvent chercher des choses différentes chez un travailleur. Au lieu de cela, il convient d’utiliser la fiabilité intraratéristique. Cependant, celles-ci tendent à être beaucoup plus élevées: 0,86 plutôt que 0,6 selon la méta-analyse effectuée par Viswesvaran, Ones et Schmidt (1996). Plus la valeur retenue est faible, plus les corrélations entre l’inflation et les corrélations brutes sont importantes. En utilisant la fiabilité de 0,6, par exemple, on gonfle les corrélations de 29 %. En comparaison, l’éminent statisticien John Hartigan et sa collègue Alexandra Wigdor favorisent l’estimation de 0,8, qui ne gonfle la corrélation que de 12 % (Hartigan et Wigdor, 1989). Comme le dit Murphy (2003), la preuve d’erreur est tellement répandue que de nombreux commentateurs recommandent la prudence dans l’utilisation des cotes attribuées aux superviseurs comme critère de rendement au travail.

Les Corrections

Dans les méta-analyses, la corrélation rapportée entre le QI et le rendement au travail est une moyenne des corrélations observées (généralement pondérée par la taille de l’échantillon, si elle est connue). Il se pourrait que les faibles corrélations des premières études soient les véritables corrélations pour l’ensemble de la population des employés dans leur myriade d’emplois et de contextes. Hunter et Schmidt (1977) soutiennent, à l’inverse, que les diverses corrélations sont des artefacts de la collecte de données. Ils ont mis au point un certain nombre de formules pour y apporter des corrections qui ont été affinées au fil des ans, mais qui demeurent essentiellement les mêmes.

Corrections pour erreur d’échantillonnage

Premièrement, l’erreur d’échantillonnage est due au fait que les corrélations observées (étude primaire) sont estimées à partir de sous-échantillons de la population générale ainsi que de sous-échantillons de l’univers des emplois. Les corrélations, c’est-à-dire qu’elles s’écarteront de la corrélation de population (inconnue) d’un degré inconnu, ce qui affectera l’estimation globale ainsi que ses intervalles de confiance. La moyenne des corrélations observées, telle qu’utilisée dans la méta-analyse, aura également une variance exagérée. Par conséquent, la variance de l’erreur d’échantillonnage doit être soustraite de la variance globale pour obtenir la variance de la corrélation réelle et sa signification statistique. Les estimations de toutes ces valeurs doivent être calculées à partir des données. En utilisant leurs méthodes et leurs hypothèses, Schmidt et Hunter (1998) ont estimé qu’environ 70 % de la variance apparente consistait en une variance d’erreur d’échantillonnage.

Un certain nombre de questions entourent les corrections des erreurs d’échantillonnage. L’approche de Schmidt et Hunter (2003) suppose que tous les échantillons d’études spécifiques proviennent essentiellement de la même population de référence, avec une seule corrélation sous-jacente QI/rendement au travail ayant une variance proche de zéro. Cette hypothèse, associée à la distribution des erreurs d’échantillonnage, est utilisée pour indiquer dans quelle mesure la corrélation moyenne observée est susceptible d’être proche de la corrélation « vraie ».

Toutefois, cette manœuvre est fondée sur l’hypothèse supplémentaire que les études primaires sont des échantillons aléatoires de la population générale (hypothétique). Ceci ne peut pas être vérifié dans les échantillons où il manque un certain nombre de détails. Plutôt que d’être soigneusement planifiées sous forme de plans aléatoires, des études particulières sont menées selon les disponibilités, comme le dit Murphy (2003). Après tout, le recrutement des participants est fondé sur la recherche d’un employeur disposé à faire passer des tests aux employés et sur la recherche de superviseurs disposés à les évaluer, ce qui est plus susceptible de se produire pour certains emplois que pour d’autres. Hartigan et Wigdor (1989) fournissent des preuves de ce biais. De plus, les effets des variables modératrices systématiques sont rarement pris en compte (Schmitt, Gooding, Noe et Kirsch, 1984). Celles-ci ne peuvent être éliminées que par la recherche primaire avec des contrôles appropriés (Russell et Gilliland, 1995).

Lorsque les corrections des erreurs d’échantillonnage sont effectuées, il y a également un problème. La corrélation moyenne réelle estimée est calculée en tant que moyenne des corrélations observées, comme nous l’avons mentionné précédemment. Idéalement, les moyens d’échantillonnage devraient être corrigés individuellement pour tenir compte de l’erreur d’échantillonnage, du manque de fiabilité des mesures et de la restriction de l’intervalle avant que la moyenne ne soit établie, c’est-à-dire qu’une méta-analyse devrait être effectuée sur les échantillons entièrement corrigés. Toutefois, comme la plupart de ces renseignements ne sont pas disponibles dans les études individuelles, la méthode Schmidt et Hunter (2003) les corrige après le calcul de la moyenne, ce qui peut introduire d’autres inexactitudes, notamment une réduction de la variance observée et une variance exagérée de l’erreur d’échantillonnage (Davar, 2004; Oswald et McCloy, 2003). Hartigan et Wigdor (1989), dans leur méta-analyse d’études plus récentes, ont estimé que l’erreur d’échantillonnage représentait environ la moitié de la variabilité observée (comparativement aux 70 % suggérés par Schmidt et Hunter[1998]). Dans d’autres études (p. ex., Burke et Landis, 2003; Lang et coll., 2010), les corrections ont été fondées sur la moyenne pondérée des estimations disponibles d’autres méta-analyses ou « estimations hypothétiques » (Lang et coll., p. 612).

Corrections d’erreurs de mesure

Les moyennes de l’échantillon peuvent également s’écarter de la moyenne réelle hypothétique en raison du manque de fiabilité des mesures, ou de l’erreur de mesure, dans les tests d’habileté et l’évaluation du rendement au travail. Une corrélation entre le quotient intellectuel et le rendement au travail dans une étude donnée peut être réduite en raison d’une telle erreur. Cela aussi doit être corrigé. Le principal effet de la correction de l’erreur de mesure est d’augmenter les corrélations observées généralement proportionnellement au manque de fiabilité de la mesure: plus le manque de fiabilité est grand, plus la correction à la hausse de la corrélation est importante.

La technique souhaitable pour la correction des erreurs de mesure consiste à ajuster individuellement chaque coefficient inclus dans la méta-analyse à l’aide des renseignements sur la fiabilité fournis pour le prédicteur et les mesures de critères spécifiques dans le rapport d’étude. Dans les tests standardisés les plus utilisés et les plus réputés, la fiabilité est bien établie et l’atténuation peut être corrigée avant la méta-analyse. Cependant, la fiabilité des mesures effectivement utilisées dans les méta-analyses en question n’était « que sporadiquement disponible » (Hunter et Schmidt, 1990, p. 79). Ils ont recommandé de les baser sur le sous-ensemble des études pour lesquelles l’information était disponible.

En utilisant cette stratégie, Schmidt et Hunter (1977) sont arrivés à une fiabilité de 0,60 pour le rendement au travail. Comme Hartigan et Wigdor (1989) l’ont expliqué, ce chiffre « a suscité un certain scepticisme chez les psychologues de l’industrie/de l’organisation qui croient souvent que la valeur de 0,60 est trop faible » (p. 166). L’effet global de l’utilisation de la valeur de 0,60 est d’augmenter l’estimation de la corrélation de la population de 30 %. Cela aussi est resté un sujet de controverse (Sackett, 2003).

De façon plus générale, bien que la correction des erreurs de mesure semble simple et souhaitable, elle est théoriquement plus compliquée et peut ne pas toujours être conforme aux principes psychométriques (Murphy et DeShon, 2000). DeShon (2003) affirme qu' »il existe de nombreuses raisons théoriques pour inciter à la prudence lorsqu’on corrige l’ampleur des coefficients de corrélation pour les erreurs de mesure », et qu’elle « est d’une valeur douteuse dans de nombreuses situations » (p. 382). L’une d’entre elles est que, bien que la correction de l’erreur de mesure augmente souvent le coefficient de corrélation, elle augmente également son erreur type avec des intervalles de confiance plus grands qui ne le différencient pas de zéro. La fiabilité des cotes de rendement au travail est calculée à partir d’estimations à différentes occasions. Toutefois, les différences dans les estimations peuvent être attribuables à de véritables différences dans le rendement plutôt qu’ à des erreurs de mesure. La plupart des individus créent une différence entre leurs performances maximales et leurs performances typiques, de sorte que ces indices ne sont pas fortement corrélés et ont des corrélats différents (Marcus, Goffin, Johntson et Rothstein, 2007). Stewart et Nandkeolyar (2006) ont constaté que la variation intra-individuelle était plus grande que la variation interindividuelle du rendement au travail. Encore une fois, la correction devient, dans une certaine mesure, une supposition, mais les corrélations corrigées en dépendent.

Le modèle statistique utilisé pour la méta-analyse et ses corrections peut également poser problème. La correction de l’erreur de mesure est fondée sur un modèle à effets aléatoires, mais le manque de fiabilité des cotes des superviseurs (dans ce cas) peut découler en partie d’un certain nombre d’effets systématiques (c. -à-d. non aléatoires) (Murphy et DeShon, 2000). Par exemple, différents contextes d’emploi peuvent entraîner différents types de désaccords entre les évaluateurs sur ce qui devrait être mesuré ou sur la façon d’utiliser les échelles de cotation. De plus, il peut y avoir des différences systématiques entre les personnes testées en ce qui a trait, par exemple, au sexe, à l’origine ethnique et à la classe sociale, et les effets de ces différences sur des variables comme la confiance en soi et l’expression des capacités (voir les sections suivantes). Diverses études indiquent que « les différences macrosociales dans la distribution des biens économiques sont liées aux processus microsociaux de perception du soi » (Loughnan et al., 2011, p. 1254). De telles perceptions peuvent influer sur les corrélations entre le rendement au test et le rendement au travail. Il s’agit d’erreurs non aléatoires qui compliquent les déductions à partir d’échantillons particuliers utilisés à des moments et à des endroits précis (DeShon, 2003).

La correction des erreurs de mesure a également des effets complexes sur les variances des coefficients de corrélation observés. Comme on l’ a laissé entendre ci-dessus, les corrections apportées aux erreurs de mesure après la moyenne dans les méta-analyses, plutôt qu’avant, peuvent exagérer la variance de l’erreur d’échantillonnage et réduire la variance de la corrélation estimée. Il faut procéder à une évaluation statistique beaucoup plus poussée de la combinaison de l’absence de fiabilité des mesures connues et inconnues « avant que cette procédure puisse être recommandée comme pratique générale » (DeShon, 2003, p. 397).

Plus généralement, l’erreur de mesure peut également survenir en raison de l’absence de validité du concept (la preuve qu’il mesure la fonction visée). C’est, bien sûr, le manque reconnu de validité conceptuelle dans les tests de QI qui a mené à une telle confiance dans la validité prédictive. L’absence d’un tel système a néanmoins des répercussions sur les corrections pour manque de fiabilité dans les méta-analyses. L’approche de Schmidt et Hunter (1977) insiste sur le fait que la correction des erreurs de mesure fournit une estimation de la  » vraie  » corrélation entre les constructions sous-jacentes. Borsboom et Mellenbergh (2002), sur la base de la théorie classique des tests, se sont véhémentés en désaccord avec cela parce qu’ils supposent aussi ce qu’ils tentent de prouver, à savoir la validité de cette construction révélée par la corrélation test – critère. Comme l’expliquent Burke et Landis (2003):

La recherche méta-analytique… est parfois cavalière dans son traitement des questions liées à la construction. En particulier, il y a parfois une hypothèse apparente selon laquelle des études superficiellement similaires, ou celles qui prétendent traiter du même ensemble de concepts, peuvent être facilement combinées pour tirer des déductions significatives au niveau des concepts. Ce n’est pas vrai. Il faut plutôt réfléchir soigneusement à la façon d’établir un lien entre les résultats de l’étude et les concepts. (p. 298)

Corrections pour la limitation de la portée

Le troisième problème courant est que les corrélations d’échantillons peuvent varier en raison de la limitation de l’aire de répartition des échantillons par rapport à la population générale. La principale raison en est que les cotes de rendement professionnel ne peuvent être fournies que pour les personnes qui occupent réellement l’emploi et qui ont subi un test de QI, et non pour tous les travailleurs possibles (y compris les candidats qui n’ont pas obtenu l’emploi). Une complication non mesurée, c’est que ceux qui pourraient même postuler à un emploi seront dans une certaine mesure auto-sélectionnés, reflétant dans une certaine mesure la perception qu’ils ont d’une variété d’autres attributs tels que l’expérience, les capacités, la confiance en soi, l’expérience, les diplômes, etc. La statistique nécessaire pour corriger la restriction de l’intervalle est le rapport entre l’écart-type (ET) observé dans l’échantillon restreint et celui de la population non restreinte. Par exemple, si le rapport est de 0,5, l’effet de correction est de doubler la corrélation de l’échantillon. La correction légitime dépend, bien entendu, de l’exactitude des estimations des variances de l’échantillon et de la population. Toutefois, comme dans le cas du manque de fiabilité des mesures, peu d’études primaires ont fait état de restrictions de gamme, de sorte que l’extrapolation est de nouveau nécessaire, et encore une fois avec tous les dangers que cela comporte.

Le principal problème est d’identifier la variance pour la population de référence appropriée. Dans le cas présent, la véritable population de référence est l’ensemble des candidats à un emploi – dont tous auraient dû faire l’objet d’un test de QI – à partir duquel une proportion limitée est recrutée pour l’emploi et évaluée en fonction du rendement au travail. Cependant, l’écart-type (ED) des résultats d’examen observés (demandeurs d’emploi) est rarement disponible. La stratégie a donc consisté à le déduire de celui des résultats réels des travailleurs, les seuls disponibles. Dans les méthodes de Schmidt et Hunter, il est simplement supposé que la population de référence SD pourrait être représentée par l' »ensemble de la main-d’œuvre américaine » qui pourrait, à son tour, être représentée de manière adéquate par les 515 emplois dans la base de données GATB (alors). Les SD pour ces échantillons ont ensuite été comparés avec ce SD global comme base de correction de la restriction d’intervalle pour tous les échantillons. Schmidt et Hunter (1977) sont ainsi parvenus à un ratio de restriction de 0,6.

L’examen de ces études par Hartigan et Wigdor (1989, p. 167) indique que l’hypothèse selon laquelle le bassin de candidats pour chaque emploi peut être approximé par l’effectif de la BATG est « troublante »; comme nous l’avons mentionné précédemment, il est rarement clair dans quelle mesure un échantillon particulier peut être restreint, par rapport à la référence, parce que les gens tendent à s’auto-trier dans les emplois qu’ils recherchent plutôt qu’ à faire partie d’un bassin aléatoire de candidats. En d’autres termes, il est probable que les échantillons d’employés présenteront probablement une inhomogénéité et ne seront pas représentatifs des données normatives (Lang et al., 2010). Cette inhomogénéité est plus probable avec des échantillons plus petits. Hunter et Hunter (1984) citent des études antérieures selon lesquelles la taille moyenne des échantillons n’était que de 68, ce qui signifie que certains échantillons devaient être encore plus petits. Schmidt et Hunter (1998) affirment que les n étaient habituellement de l’ordre de 40-70. Ceci est également important dans la mesure où il existe certaines situations, telles que les données non normales avec des valeurs aberrantes, dans lesquelles la correction peut effectivement diminuer plutôt qu’augmenter la corrélation (Zimmerman et Williams, 2000).

En somme, il existe un risque que les ajustements pour l’un ou l’autre de ces paramètres soient surcorrectement corrigés, ce qui rendrait les coefficients de validité faussement élevés (Wagner, 1994). Comme le soulignent Hartigan et Wigdor (1989), le fait d’utiliser un chiffre moyen pour la variance de la population pourrait mener à des corrections exagérées pour restreindre la fourchette, et faire valoir qu’en l’absence d’information claire pour chaque groupe, la chose la plus sûre est de ne pas appliquer de corrections.

En l’état actuel des choses, les corrections de Schmidt et Hunter (1998) gonflent les corrélations dans leurs échantillons de 61 % lorsqu’elles sont combinées à leur correction pour le manque de fiabilité des mesures. Les propres estimations de Hartigan et Wigdor (1998) n’ont augmenté la corrélation que de 12 %, à 0,22, comparativement à celles de Schmidt et Hunter (1998) à 0,51. Leur critique a été reprise par d’autres critiques critiques dans, par exemple, Cook (2009), McDaniel (2007) et Jencks (1998), réitérant leurs mises en garde. On a tenté d’affiner ces méthodes de correction (p. ex., Le & Schmidt, 2006), mais avec d’autres hypothèses et approximations pour les données manquantes, et le débat se poursuit donc.

Résumé des doutes sur les corrélations corrigées

Il faut souligner, encore une fois, que l’approche méta-analytique utilisée dans ce domaine a été généralement bien acceptée et que même les critiques ont tendance à recommander des mises en garde et d’autres questions plutôt que des congédiements complets. Nous les revoyons maintenant, nous essayons d’en ajouter quelques autres, et nous soulignons les dangers de tirer des conclusions solides. Comme Murphy (2003) le dit, la « longue et âpre controverse » sur l’utilisation de ces corrections dans les études de validité est en partie due à la façon dont les affirmations fortes ont été faites à partir de données primaires mixtes. Faisant état d’un certain nombre de problèmes statistiques, Bobko et Roth (2003) suggèrent également que les partisans de la méta-analyse « peuvent être un peu trop zélés dans leurs affirmations au sujet de ce que la méta-analyse pourrait ou ne pourrait pas accomplir », et que « des mises en garde… sont justifiées » (p. 68). Les principaux problèmes proviennent des faiblesses et des incertitudes des données primaires. Schmitt, Arnold et Nieminen (2010) suggèrent audacieusement que l’absence de données dans la plupart des études primaires ne permet tout simplement pas d’apporter « des corrections fondées sur l’échantillon pour corriger le manque de fiabilité des critères ou la restriction de l’intervalle » (p. 66). Kaufman et Lichtenberger (2006, p. 18) mettent également en garde contre les « corrections imprudentes et peut-être trop zélées » des corrélations primaires.

De plus, des biais peuvent être attribuables au fait que les résultats statistiquement significatifs, ou ceux qui sont conformes aux résultats antérieurs, sont plus susceptibles d’avoir été publiés que les résultats non significatifs ou à faible effet (connu sous le nom de « tiroirs-fichiers »; Field, 2007; Murphy, 2003). McDaniel, Rothstein et Whetzel (2006) ont analysé les déclarations de validité dans les manuels techniques de quatre fournisseurs de tests qui ont utilisé les cotes des superviseurs comme critère. Ils ont noté que deux des éditeurs avaient tendance à ne faire état que de corrélations statistiquement significatives. Nous ne pouvons que deviner dans quelle mesure ce problème a affecté les résultats des méta-analyses.

Plus important encore, peut-être, est le problème de l’interprétation des corrélations corrigées. La plupart des lecteurs non critiques ont accepté les corrélations corrigées comme étant les « vraies » corrélations. Cependant, il est probablement plus prudent de les interpréter comme des corrélations maximales théoriques compte tenu de la faiblesse des échantillons et du manque de fiabilité des instruments d’essai: »des corrélations idéalisées élevées plutôt que des corrélations réelles » (Sternberg et al., 2001, p. 10). Ou, comme Kaufman et Lichtenberger (2006) l’ont dit, »ces corrections gonflent les corrélations en estimant leurs grandeurs dans des situations hypothétiques » (p. 18); par exemple, ce que la corrélation pourrait être dans des conditions idéales avec des instruments de test parfaitement fiables, qui n’existent pas.

Enfin, presque toutes les études sont de conception concurrente: au lieu de tester le prédicteur à un âge/temps, puis le critère un peu plus tard, les mesures des deux variables sont habituellement prises plus ou moins ensemble. Comme l’ont découvert Banks et McDaniel (2014), cela peut surestimer la validité « peut-être substantiellement ».

Il est à noter que des allégations semblables ont été faites au sujet des corrélations entre le QI et le succès de la formation dans diverses professions. Schmidt et Hunter (1998) indiquent une corrélation de 0,54, et ce chiffre a été largement accepté (Bertua et al., 2005; James et Carretta, 2002). Mais elles sont sujettes aux mêmes objections que celles concernant le rendement au travail: les corrélations brutes sont très faibles (environ 0,2), doublées ou plus dans les méta-analyses par des corrections estimées. Les résultats les plus cités sont ceux de l’entraînement du personnel des Forces, alors que toutes les méta-analyses comprennent des dizaines de tests différents, de normes psychométriques variées et de nombreuses études très anciennes, remontant jusqu’aux années 1920 (p. ex. Bertua et al., 2005).

Études plus récentes

Comme nous l’avons déjà mentionné, la plupart des études incorporées dans les méta-analyses, à partir desquelles les corrélations corrigées sont largement citées, datent d’avant 1970. Certaines des questions soulevées sont illustrées dans le rapport, déjà mentionné précédemment, de Hartigan et Wigdor (1989). Il s’agit du rapport d’un comité mis sur pied par la National Academy of Science des États-Unis pour examiner si le Service de l’emploi des États-Unis pourrait promouvoir l’utilisation du GABT de façon systématique dans tout le pays. Bien qu’il soit généralement favorable, le rapport du comité a formulé des commentaires critiques sur toutes les corrections rapportées dans Hunter et Hunter (1984), en se fondant sur la BATG, en particulier celles fondées sur des hypothèses qui ne sont pas étayées par les données disponibles.

Comme l’indiquent Hartigan et Wigdor (1989), les 515 études de Hunter et Hunter (1984) ont été menées entre 1945 et 1970:10 % dans les années 1940,40 % dans les années 1950 et 60 et 10 % dans les années 1970. Cependant, 264 autres études sur la BATG ont été menées par la suite et analysées dans le même rapport. Comme le soulignent Hartigan et Wigdor (1989): »La constatation la plus frappante[…] est une nette diminution des validités dans l’ensemble plus récent, postérieur à 1972″ (p. 150). Ces facteurs sont décrits comme « déroutants et évidemment quelque peu inquiétants » (p. 160) et, par conséquent, d’autres facteurs ont été pris en considération. Par exemple, les 264 études récentes ont des tailles d’échantillon moyennes beaucoup plus grandes (146, dont 75). On a montré comment les échantillons plus grands produisaient une erreur d’échantillonnage beaucoup plus faible, nécessitant moins de correction. Ils ont également produit des variations beaucoup plus faibles avec la famille d’emplois (ou le niveau de complexité de l’emploi, voir la section suivante). Les études les plus récentes ont également montré une moindre restriction de l’aire de répartition, nécessitant également moins de correction (avec beaucoup moins de possibilité d’un faux renforcement des corrélations observées). Jencks (1998) a confirmé ces constatations en notant que « les résultats de la GATB ne prédisent pas très bien le rendement au travail » et que « pour des raisons que personne ne comprend, la capacité de la GATB à prédire le rendement au travail a diminué » (p. 75).

Une autre explication des corrélations QI/rendement au travail plus faibles au cours des dernières années pourrait être l’amélioration générale des compétences des emplois, avec des différences réduites dans les exigences cognitives des professions. Il s’agit, bien entendu, d’une autre explication parfois donnée pour l’effet dit « Flynn » concernant la hausse substantielle des scores moyens de QI dans le temps (Flynn, 2007). Les effets de la réduction de la variance de la production combinée à la hausse des « entrées » peuvent être jumelés entre eux de façon à réduire également la corrélation QI/rendement au fil du temps. De plus, il se peut que des résultats supérieurs aux tests de QI et des évaluations plus favorables des superviseurs d’emploi reflètent tous deux une variété de facteurs non cognitifs médiateurs comme la confiance en soi (voir plus loin la section suivante).

Enfin, il semble que même les faibles corrélations entre QI et rendement au travail habituellement signalées aux États-Unis et en Europe ne sont pas universelles. Par exemple, Byington et Felps (2010) ont constaté que les corrélations entre le quotient intellectuel et le rendement au travail sont  » beaucoup plus faibles  » dans d’autres régions du monde, notamment en Chine et au Moyen-Orient, où les performances scolaires et professionnelles sont davantage attribuables à la motivation et à l’effort qu’aux capacités cognitives.

La complexité de l’emploi

En se fondant sur leurs méta-analyses d’études utilisant le GATB, Hunter et Hunter (1984) ont catégorisé les emplois en fonction des impressions sur la complexité de la cognition exigée. Ils prétendent que la corrélation entre QI et rendement au travail est plus forte dans les emplois plus complexes. On en a beaucoup parlé dans les nombreuses citations ultérieures. Ainsi, Gottfredson (1997) affirme que « Une observation particulièrement importante est que les validités prédictives varient systématiquement selon la complexité globale du travail en cause » (p. 82). Sur la base des mêmes méta-analyses, Ones et coll. (2012, p. 189) ont réitéré que « les relations[…] sont les plus solides pour les emplois très complexes (p. ex. attornies, médecins, pilotes). Les validités dans les travaux de complexité moyenne sont un peu plus faibles… (surtout en 0,50 s). Même pour les emplois peu complexes, les corrélations de critères se situent dans la plage utile (0,20 s) ». Mais quelle est la véracité de cette conclusion? Est-ce que c’est ce que les données montrent sans équivoque?

Tout d’abord, comme nous l’avons déjà mentionné, les méta-analyses comprennent des études qui sont très anciennes avec beaucoup de données manquantes. L’association peut elle-même être un artefact de « corrections d’artefacts » dans de telles circonstances empiriques compromises. Le tableau 11 compare ces corrélations avec d’autres études récentes rapportées par Hartigan et Wigdor (1989). Bien qu’elles suivent un protocole de correction semblable à celui de Hunter et Hunter, les corrélations plus récentes sont remarquablement uniformes (et faibles) dans toutes les catégories de complexité des emplois. Lorsque Hartigan et Wigdor ont corrigé les 264 études les plus récentes pour ne tenir compte que de l’erreur d’échantillonnage (parce qu’ils se méfiaient de la justification empirique des autres corrections), les corrélations étaient très faibles (0,06-0,07) et virtuellement identiques dans toutes les familles d’emplois.

Là où les corrélations varient, quoique légèrement, cela peut être attribué à d’autres effets systématiques dans toutes les catégories d’emploi. Comme nous l’avons déjà mentionné, les gens ne se comportent généralement pas aussi bien qu’ils le pourraient dans la plupart des situations et les cotes des superviseurs sont susceptibles de rendre compte de performances typiques plutôt que maximales, peut-être en fonction des conditions de travail. Les emplois plus complexes offrent habituellement des conditions de travail plus agréables et des relations plus équitables entre les gestionnaires et les employés (en fait, bon nombre d’entre eux seront des gestionnaires), ce qui permet d’améliorer bon nombre des variables psychologiques, comme le stress et l’anxiété, qui peuvent nuire à la fois au rendement au test et au rendement au travail (voir la section suivante). Autrement dit, les travailleurs sont plus susceptibles d’exécuter de façon asymptotique des emplois plus agréables (c. -à-d. de classe supérieure) que des emplois moins agréables, ce qui accroît la corrélation entre le quotient intellectuel et le rendement au travail. Les emplois de complexité différente varieront aussi systématiquement selon les autres attributs psychologiques des personnes testées et les situations professionnelles. Les personnes testées appartiennent à des classes sociales distinctes associées à différents niveaux de préparation aux tests et au travail. Par exemple, les emplois de classe supérieure seront habituellement associés à d’importants attributs psychologiques des personnes testées, comme l’estime de soi et les croyances abondantes en matière d’efficacité personnelle (Bandura, 1997; Dweck, 2008). À ces niveaux, les personnes testées sont plus susceptibles d’appartenir à la même classe sociale que leurs évaluateurs de rendement (avec les effets de biais décrits plus haut). Inversement, on observe que ceux qui occupent des emplois peu complexes ou de moindre complexité sont susceptibles d’avoir des communications moins fréquentes et moins habiles avec les superviseurs (Guion, 1983).

Des corrélations et des causes (non cognitives)

Le plus grand problème qui s’est posé au cours de cette histoire de validation a peut-être été l’état de préparation avec lequel les corrélations ont été acceptées comme causes: c’est-à-dire la conclusion selon laquelle les différences individuelles dans les performances d’un test de QI sont en fait des différences dans une capacité mentale générale parce qu’elles sont associées à des différences individuelles dans le rendement au travail. Les corrélations sont décrites de façon répétée en termes d' »effets » (quel que soit le test de QI utilisé pour mesurer le rendement au travail), plutôt que par une simple covariation statistique qui ne révèle pas en soi la ou les sources de cette covariation.

Le fait que les causes peuvent être plus complexes qu’un facteur cognitif unitaire est indiqué par un certain nombre d’anomalies dans les résultats. D’autres analyses des inter-corrélations entre les facteurs entourant les corrélations entre le QI et le rendement au travail (c. -à-d. les analyses de cheminement) ont mené à la suggestion que tout effet causal des capacités cognitives sur le rendement au travail est en fait indirect. Par exemple, Schmidt, Hunter et Outerbridge (1986) ont constaté que les cotes des superviseurs n’avaient pratiquement aucune corrélation avec les échantillons réels de rendement au travail, comme on l’ a déjà mentionné. Cependant, ils ont montré une corrélation de 0,3 avec les connaissances professionnelles des sujets. Dans une étude expérimentale, Palumbo et ses collaborateurs (2005) ont constaté, à l’aide d’analyses de régression, que les capacités cognitives représentaient 12 % de la variance dans le rendement, mais qu’elles étaient complètement médiées par l’association entre les capacités cognitives et les connaissances professionnelles. Ils recommandent donc de remplacer les tests de QI par des tests de connaissances ou de compréhension de l’emploi comme meilleurs prédicteurs du rendement au travail.

Comme le dit Wagner (1994), pour démêler les effets causaux de ces associations, il faut des constructions supplémentaires. Il se pourrait, comme l’affirment Schmidt et Hunter (2004), que la « capacité mentale générale » (MCG) soit liée au rendement au travail parce qu’elle détermine la vitesse d’acquisition des connaissances professionnelles ainsi que leur complexité, c’est-à-dire simplement une autre expression de g. Mais, aussi plausible que soit cet argument, cela signifie accepter qu’une corrélation déjà faible (? 0,3) entre le rendement au travail et le rendement sur un crayon et un test sur papier de la connaissance du travail est entièrement déterminée par une construction (g) non caractérisée, dont le test n’ a pas encore une validité de construction acceptable. C’est ce qui a amené Wagner à se plaindre que « nous semblons avoir été aveuglés par ce que nous avons appelé la vision » g-eocentrique « (p. 137).

Le danger est de considérer la connaissance d’un emploi comme une variable pure, alors que son acquisition est probablement affectée par une série d’autres variables, connues et inconnues. Par exemple, la connaissance individuelle du travail est probablement fonction de l’expérience antérieure, quel que soit le niveau du g hypothétique, et le degré d’expérience peut influer à la fois sur le rendement du test de QI et sur les cotes de rendement du superviseur. En effet, les organisations ont tendance à examiner attentivement l’expérience antérieure dans la sélection des candidats à un poste. La recherche suggère que l’expérience antérieure, comme on s’ y attendait, a tendance à avoir un effet positif sur le rendement au travail; toutefois, elle peut aussi, chez certains individus, avoir un effet négatif sur le rendement par l’entremise de la rigidité comportementale et cognitive (Dokko, Wilk et Rothbard, 2008). Il y a, bien sûr, beaucoup de preuves que la performance des tests de QI peut être améliorée par une expérience fondée sur les connaissances avec des tâches cognitives compatibles (p. ex. Mackey, Hill, Stone, & Bunge, 2011; Moreno et al., 2011).

C’est en raison de ces doutes qu’on a exploré d’autres voies causales dans les corrélations entre le quotient intellectuel (ou la connaissance de l’emploi) et le rendement au travail. Le rôle possible de la motivation a été mentionné plus haut. Mais d’autres facteurs affectifs et contextuels ont été pris en compte ces dernières années. Dans ses études, Working with Emotional Intelligence, Goleman (2000) a constaté que « 67 pour cent – deux sur trois – des habiletés jugées essentielles pour un rendement efficace étaient des compétences émotionnelles. Comparativement au QI et à l’expertise, la compétence émotionnelle comptait deux fois plus. Cela s’est avéré vrai dans toutes les catégories d’emplois et dans tous les types d’organisations « (p. 31) (cependant, voir Landy, 2005, pour les difficultés liées aux tests).

Selon Arthur et Villado (2008), la recherche sur la sélection du personnel met de plus en plus l’accent sur le « point de vue des candidats », y compris « les réactions des candidats aux systèmes, processus, méthodes et décisions de sélection et les liens entre ces réactions et les résultats, comme la perception de l’équité, la validité des visages, la motivation à passer les tests, le rendement au test et l’auto-retrait du processus de sélection » (p. 435). Celles-ci aussi peuvent varier systématiquement, comme nous l’avons déjà indiqué. De même, l’importance du contexte de travail sur le rendement, en tant que source cruciale de variance, a récemment été étudiée et montre que la relation entre l’aptitude apparente et le rendement au travail est remarquablement labil. Par exemple, Groysberg (2010), après avoir examiné les carrières de plus de 1 000 hauts performeurs (analystes « vedettes ») à Wall Street, a montré que ceux qui changent d’entreprise ont tendance à subir une baisse de performance immédiate et durable. Le rendement semble avoir dépendu davantage du soutien organisationnel, des réseaux et des collègues de leurs anciennes entreprises que des qualités intellectuelles des individus. Cela peut expliquer en partie pourquoi même les faibles corrélations QI-emplois rapportées ne se rapportent pas à l’extérieur des États-Unis et de l’Europe, tel que mentionné précédemment.

D’autres facteurs peuvent réduire la performance dans les tests de QI et les emplois en deçà de la capacité réelle. Pour des raisons de structure sociale, les parents à faible revenu « doivent payer une taxe sur leurs ressources psychiques » (Mullainathan, 2012). Les employés débordés par les inquiétudes concernant le loyer, l’alimentation et les vêtements des enfants, le paiement des factures du ménage et le sentiment de contrôle réduit sur les circonstances, peuvent souffrir d’une « bande passante mentale » réduite équivalant à une perte de 13 points dans la performance du test de QI (Mullainathan). Ils auront également tendance à avoir moins de motivation et de confiance en soi, et à éprouver une anxiété accrue dans les situations de test et de travail. Ackerman et Heggestad (1997) ont rapporté une corrélation de r = -0,33 entre l’anxiété du test et la performance. Raven, Raven et Court (1993, p. G14) notent que la fatigue, les problèmes de santé et le stress affectent la vitesse et l’exactitude du régime. Dans une méta-analyse, Duckworth, Quinn, Lynamc, Loeberd et Stouthamer-Loeberd (2010) ont montré qu’après avoir ajusté la motivation du test, la validité prédictive de l’intelligence pour les résultats de la vie était considérablement diminuée, en particulier pour les résultats non scolaires. Cela signifie que ces participants à l’étude auront tendance à avoir un rendement inférieur à leur meilleur, ou plus erratique, tant pour les mesures prédicteurs que pour les mesures critères, ce qui réduira la corrélation entre eux. De telles considérations devraient à tout le moins atténuer les fortes allégations habituellement faites au sujet de la validité prédictive des tests de QI tirés des corrélations avec le rendement au travail.

CONCLUSIONS

Les partisans du test de QI n’ont pas tardé à souligner les corrélations entre le QI et le rendement au travail comme preuve de la validité du test. Un examen plus attentif des données et des résultats laisse toutefois entrevoir une image un peu plus floue. Nous avons reconnu ici les avancées méthodologiques des méta-analyses qui ont permis d’obtenir de telles preuves, tout en attirant l’attention sur les problèmes qui les entourent dans ce domaine particulier. Nous concluons par un résumé des principaux points:

Beaucoup de choses dans la théorie du développement, et la psychologie en général, dépend de la validité des tests de QI.
En l’absence de validité conceptuelle convenue, cela a fortement pesé sur la validité indirecte en utilisant des corrélations avec les résultats de critères parmi lesquels le rendement au travail a un statut particulier.
Des centaines d’études antérieures aux années 1970 ont fait état de corrélations faibles et/ou incohérentes entre le quotient intellectuel et le rendement au travail.
Ces corrélations ont été approximativement doublées en utilisant des corrections pour les erreurs supposées dans les résultats primaires et en les combinant dans des méta-analyses. De telles corrections ont de nombreux points forts, en théorie, mais sont compromises dans ces cas par la qualité souvent incertaine des études primaires.
Les corrections apportées aux erreurs d’échantillonnage, aux erreurs de mesure et aux restrictions d’intervalle ont nécessité la formulation d’un certain nombre d’hypothèses qui peuvent ne pas être valides et ont créé un certain nombre de questions controversées persistantes.
L’affirmation selon laquelle la corrélation entre le QI et le rendement au travail augmente avec la complexité de l’emploi n’est pas établie dans des études plus récentes.
Une série d’autres facteurs, y compris des facteurs non cognitifs, pourraient expliquer une corrélation entre le quotient intellectuel et le rendement au travail, et même constituer une partie ou la totalité de l’énigmatique « facteur général ».
Il subsiste une grande incertitude quant à l’interprétation des corrélations QI-job et il faut faire preuve d’une grande prudence en les utilisant comme base pour la validité des tests de QI et des concepts associés.
Comme d’autres l’ont souligné, les corrections statistiques ne sont pas une compensation magique pour la faiblesse des données et il est risqué de tirer des conclusions sur la validité des tests à partir de celles qui sont actuellement disponibles (Oswald et McCloy, 2003; Russell et Gilliland, 1995). La seule solution consiste à mener correctement des études primaires, avec des échantillons représentatifs plus grands, de meilleures mesures, etc. Jusqu’ à ce qu’ils soient disponibles, les enquêteurs devraient être extrêmement prudents lorsqu’ils diffusent des conclusions sur la validité des tests de QI, à partir des corrélations entre le QI et le rendement au travail.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *