Trouver une methode de profilage automatique

Rappel: 640 000 observations sur 131 items sur 12 ans , tous âges, sexe, CSP

Il s’agit ici d’une réflexion à voix haute sur une problématique qui nous occupe. Les commentaires sont donc bienvenus.

Les données du problème

L’objectif est qu’à l’issue du test, les résultats permettent de dire si le profil de la personne correspond à une catégorie professionnelle. Autrement dit, de pouvoir dire à un employé qu’il a le profil d’un cadre, ou à un cadre qu’il a le profil d’un chômeur. (un peu d’humour noir …. 🙂 )

Le plus simple étant de prendre un exemple, nous nous baserons sur les « cadres du secteur informatique ».

La première étape est donc de repérer si les « cadres du secteur informatique » répondent différemment des autres catégories professionnelles et, en les rassemblant, générer un indicateur.

Empirique

Nous avons généré toutes les moyennes des 131 questions par catégorie professionnelle. Pour des raisons de confidentialité, nous ne pouvons les rendre public.

Pour autant, nous pouvons sortir quelques chiffres, pour le moins, étonnants.

Pour l’exemple qui nous préoccupe, la Q1 « Je fais attention à ma façon de m’habiller «  marque une différence !

Les cadres du secteur informatique ont une moyenne de 1.93 pts (de 1 à 4. oui =1 , non =4, neutre =2.5)

et les cadres « autres secteurs » ont une moyenne de 1.73 pts.

C’est une différence énorme ! Elle s’interprète facilement : Les cadres du secteur informatique font moins attention à leur façon de s’habiller que les autres. (En cela… pas de commentaires 🙂 )

Oui, mais comment le repérer ? :

– Avec une moyenne de 1.93 pt, nous sommes sur une réponse de type « plutôt oui » , mais avec 1.73 pts aussi ! Nous ne pouvons donc pas repérer sur cette simple question la différence entre les personnes.

Passer outre la méthode classique

La méthode classique la plus simple (que nous utilisons sur d’autres types de résultats au test) consiste à attribuer des points suivant la réponse. L’incrément est linéaire, par exemple : oui = 10pts, plutôt oui=6.5pts, plutôt non=2.5 pts et non=0pts.

Puis de créer un indicateur en moyenne de différentes questions suivant leur importance. Par exemple ( Q1 x 2 + Q123 x5 + Q321 x1 ) / 8 = résultat

Mais dans notre problème, cette méthode sera difficile à mettre en place car elle ne reflète pas « les tendances » par profils. Elle nous oblige à tout faire reposer sur l’importance des questions.
Autrement dit, il y a une sorte de perte d’information dans l’équation que nous serons condamné à essayer de recréer.

La conclusion s’impose : Nous devons trouver un moyen de refléter les différences de profils dans la cotation des réponses.

Autrement dit, nous devons trouver une méthode d’attribution des points non-linéaire et fonction des différences de moyennes.

La nouvelle méthode que nous allons tester

Soit les cadres du secteur informatique avec une moyenne à la Q1 de 1.93 pts , soit 0.25 > à moyenne générale (1.68)

Soit les cadres autres secteurs avec une moyenne à la Q1 de 1.73 pts, soit 0.05 > à moyenne générale

Nous partirons du principe que pour un cadre informatique, le fait de « ne pas faire attention à la façon de s’habiller » est plus courant que pour les autres (sauf les retraités qui montent à 2.09…)

aussi, au lieu d’attribuer la Q1 de la forme 10->6.5->2.5->0, nous coterons la Q1 de la forme 0->10->10->10 , et nous donnerons à cette question un facteur de 25 (écart x 100)

En d’autres termes, nous devons, dans le score final, prendre en compte que pour un cadre informatique, il n’est pas « normal » de faire très attention à la façon de s’habiller, alors que cela peut l’être dans toutes les autres catégories professionnelles.

Autrement dit, la formule finale, appliquée aux 131 questions du test de personnalité, sera composée de ( Ecart_moyenne_totale x 100) x poids + etc.

TODO (à faire)

  1. Ecrire un programme qui établis automatiquement l’équation
  2. vérifier que l’équation donne bien un score nettement différent que les autres CSP
  3. vérifier le taux de positifs sur 100 000 fiches

A suivre …