A la recherche de ce qui ne varie pas – repérage

Toutes ces données accumulées sont un peu comme une boite de pandore. Il y a tout à comprendre, à analyser, sur tous les axes, dans toutes les dimensions.

Mais en écrivant les travaux préliminaires sur la différence entre les hommes et les femmes, nous nous sommes aperçu qu’au milieu de toutes ces chiffres qui varient, ce qui est vraiment intéressant du coup est ce qui ne varie pas.

Quelles sont donc ces questions sur lesquelles les moyennes ne changent pas dans le temps, ni par âge, ni par genre ?

Autrement dit, quels sont ces sujets qui sont indépendants de l’époque, de l’expérience ou des hormones ?

Voilà une belle quête.

Ni une ni deux, nous avons fait tourner nos logiciels de statistique sur cette recherche. Et la réponse est incroyable :

Les 2 questions dont les réponses moyennes ont un écart moyen de 0.02 (sur 4pt) sur 12 ans et 605 000 observations :

 

Il s’agit de la Q3 : « J’aime manger »

et de la Q326 : « Les formes sensibles ne sont qu’un renseignement  »

2 belles analyses en perspectives ! Car si ces deux questions ne varient pas sur 12 ans, reste tout de même à vérifier que c’est vrai aussi avec l’âge et avec le genre.

Pendant que nous y sommes, il y a aussi LA question qui varie le plus sur 12 ans, avec un écart moyen de 0.19 (presque 10 fois plus).

Il s’agit de la question Q353 : « Je récompense facilement les efforts des autres » …

To be continued

 

Différence entre les hommes et les femmes

Travaux préliminaires

Base 640 000 observations sur 12 ans – fichedepersonnalite.com – LAINE Pierre-jean

 

Introduction

Soyons clair, sur le sujet, tout a été dit. Tout ou presque. Notre propos est ici d’aborder cette question de la différence ou de la similarité des genres par le biais de notre base de données.

Autrement dit, comment s’expriment les différences entre les hommes et les femmes sur 12 ans de collecte de donnée (640 000 observations) et 131 questions (item) ?

Le système de notation : les valeurs vont de 1 (oui) à 4 (non), la moyenne neutre est donc de 2.5

Première passe :

Nous avons simplement, pour chacune des questions, regardé la valeur absolue de la différence de score entre les hommes et les femmes, tous âges, toutes CSP, et ce, par année et mois, de 2001 à 2014

Résultats :

  • 62 questions ont un écart moyen négligeable inférieur à 0.10 points
  • 28 questions ont un écart moyen supérieur à 0.20 points
  • 9 questions (sur les 28) ont un écart moyen supérieur à 0.30 points

Nous pourrions penser, d’emblée, qu’il y a donc une différence notable entre les genres. Pour autant, ce n’est pas aussi simple que cela.

Il a déjà été prouvé et rabâché que certaines fonctions (motrices par exemples) sont différentes entre les sexes. Ce qui nous intéresse est plutôt de l’ordre des différences psychologiques.

Est-ce à dire que nous allons étudier les questions une par une pour analyser et évaluer leur pertinence sur le sujet qui nous préoccupe ? Non. Il y a plus simple à faire.

Nous allons tester une hypothèse :

S’il est vrai que petit à petit, dans nos pays francophones, culturellement, la différence entre les hommes et les femmes s’amenuise, alors, sur 12 ans, nous devrions retrouver l’amenuisement de cet écart. Plus que cela, nous devrions être en mesure, théoriquement, de définir un indicateur d’égalité.

Autrement dit, nous devrions être en mesure d’identifier :

  • GROUPE 1 : Les questions qui ont un écart faible et invariant, c’est-à-dire les sujets sur lesquels ni la culture, ni la physiologie n’a d’incidence.
  • GROUPE 2 : Les questions qui ont un écart important, mais une faible variation. Ces questions seront donc directement liées aux différences physiologiques entre les sexes
  • GROUPE 3 : Les questions qui ont un écart important, et qui ont des variations importantes dans le temps. Ces questions seront donc les sujets sur lesquels les différences entre hommes et femmes sont imputables à la culture et au contexte

 

Observations

Groupe 1 : Faible écart (NEC), faibles variations (NV)

NEC NV

2001

   0.01

2002

             0.01

2003

             0.02

2004

             0.01

2005

             0.02

2006

             0.02

2007

             0.02

2008

             0.02

2009

             0.02

2010

             0.02

2011

             0.01

2012

             0.01

2013

             0.02

2014

             0.01

clip_image002

Ce groupe est indexé sur la moyenne de 23 questions avec variation d’écart moyen (écart type) inférieur à 0.02 par mois, et écart moyen total inférieur à 0.10

Analyse :  Nous constatons que, même si l’indice change sensiblement pour les femmes et les hommes, l’écart lui, reste stable.

Nous pouvons donc en déduire 2 conclusions a priori :

  • Les 23 questions représentent un indice qui subit des variations chez les femmes et chez les hommes séparément depuis 2012 /2013. Nous ne pouvons rien dire de la cause de ses variations.
  • Les variations de cet indice n’ont aucun impact sur l’écart entre les hommes et les femmes. Les deux sexes varient avec la même amplitude.

Donc, cet ensemble de 23 questions semble être un bon indicateur de la similarité invariante entre les genres.

 

Groupe 2 : Grand écart (GDEC), faibles variations (NV)

GDEC NV

2001

             0.06

2002

             0.04

2003

             0.06

2004

             0.05

2005

             0.06

2006

             0.06

2007

             0.06

2008

             0.05

2009

             0.04

2010

             0.05

2011

             0.05

2012

             0.04

2013

             0.05

2014

             0.05

clip_image004

Ce groupe est indexé sur la moyenne de 11 questions avec variation d’écart moyen inférieur ou égal à 0.02 par mois, et écart moyen total supérieur à 0.20

Analyse :  Nous constatons que cet indice change sensiblement pour les femmes et les hommes en 2012/2013. Cette variation n’a pas d’impact sur les variations d’écarts.

Cet indicateur est censé représenter les différences irréductibles (donc physiologiques) entre les hommes et les femmes, et être invariant.

Groupe 3 : Grand écart (GDEC), Grandes variations (GDV)

GDEC GDV

2001

             0.05

2002

             0.08

2003

             0.09

2004

             0.07

2005

             0.11

2006

             0.13

2007

             0.13

2008

             0.15

2009

             0.13

2010

             0.14

2011

             0.14

2012

             0.12

2013

             0.13

2014

             0.11

 

clip_image006

Ce groupe est indexé sur la moyenne de 8 questions avec variation d’écart moyen supérieur ou égal à 0.03 par mois, et écart moyen total supérieur à 0.20

Analyse :  Nous constatons que :

  • L’écart se réduit depuis 2011, après 10 ans de hausse.
  • Les indices séparés Hommes/Femmes ne sont pas du tout synchronisés.

 

Interprétation :

C’est évidement le groupe 3 qui nous intéresse. Autrement dit, l’indice de ce qui est clairement différent entre les genres et variable dans le temps.

L’indice d’écart en lui-même :

Contrairement à ce que l’on aurait pu penser, l’écart entre les hommes et les femmes se creusait depuis les années 2004. Ce n’est que depuis 2011 qu’il semble se réduire.

La courbe des indices par genre nous indique que :

En 2004 , ce sont les hommes qui ont changés de façon non-négligeable, alors que les femmes, elles, ont continué une évolution stable à la baisse.

Autrement dit, si à cette époque les hommes n’avaient pas changé, l’écart culturel/contextuel entre les hommes et les femmes se serait amoindri. Au lieu de cela les hommes, en changeant plus vite, ont augmenté cet écart.

En 2011, il semble que ce soit le contraire qui se passe. Ce sont les femmes qui viennent de changer de façon notable, alors que les hommes, eux, restent stables. L’écart se réduit donc vers les valeurs des hommes, alors qu’avant 2004, c’étaient les hommes qui rejoignaient les valeurs des femmes.

En d’autres termes, sur la question de l’égalité des sexes :

Notre approche nous permet de dire qu’il s’est passé quelque chose en 2003/2004 qui a amené un changement soudain des hommes sur l’ensemble des questions de cet indice. Les femmes n’ont pas réagit à cet événement avec la même amplitude.

De plus, en 2012/2014, les femmes s’approchent de plus en plus de l’indice que les hommes avaient en 2004. Alors que l’indice de ces derniers apparaît stable. Ce qui explique une baisse d’écart.

Il nous semble important de noter que, selon cet indice, de toute évidence :

  • Les hommes et les femmes n’évoluent pas de la même façon
  • Les femmes semblent, sur 12 ans, se rapprocher de l’indice des hommes et non le contraire. Ou tout du moins, plus vite que ces derniers.

Ce qui nous permet de conclure qu’a priori :

  • Globalement, les hommes et les femmes sont plus similaires que divergents
  • Sur les questions de divergences, la tendance est au mouvement des femmes vers les valeurs des hommes et non le contraire.

 

Conclusion

Depuis 12 ans l’indice des femmes se rapproche de celui des hommes (femmes 2014 : 2.26 pts, hommes 2004 : 2.23 pts)

Or l’indice des hommes lui aussi varie à la baisse dans les années 2004, à la hausse faible depuis 2008.

Donc, les femmes vont vers plus d’égalité en s’approchant des valeurs des hommes.

Mais les valeurs des hommes ont changé et changent plus rapidement, ce qui fait varier l’écart final.
Donc, par rapport à notre hypothèse de départ, nous pouvons dire que :

  • Oui, nous allons vers plus d’égalité du fait que les femmes prennent petit à petit les valeurs des hommes.
  • Oui, il y a plus de similarités invariantes que de divergences.
  • Non, dans les chiffres, nous n’allons vers plus d’égalité que depuis peu d’années. Nous nous en sommes largement éloignés depuis le début des années 2000 du fait d’un durcissement soudain des valeurs des hommes vers 2004.

 

Note : nous laissons le soin au lecteur de faire sa propre enquête sur les événements qui pourraient expliquer les variations de l’indice des hommes, car cela n’est pas notre propos.

 

NEC NV : 3, 259, 266, 268, 269, 271, 272, 276, 277, 278, 279, 280, 281, 282, 287, 289, 298, 297, 302, 311, 321, 347, 59

GDEC NV : 245, 250, 253, 254, 264, 284, 306, 323, 340, 349, 97

GDEC GDV : 1 , 291, 305, 318, 319, 330, 336, 82

 

Comptage de la base de donnée exploitable

Un petit aperçu des données disponibles

Sur 647 141 observations (FR,CH,BE,QC) et plus de 130 questions par observation :

Par année : 

  • 2001   : – de 20000
  • 2002 : + de 20000
  • 2003 : + de 20000
  • 2004 : + de 20000
  • 2005 : + de 20000
  • 2006 : + de 20000
  • 2007 : + de 20000
  • 2008 : + de 20000
  • 2009 : + de 20000
  • 2010 : + de 20000
  • 2011 : + de 20000
  • 2012 : + de 20000
  • 2013 : – de 20000 (pénalité google)
  • 2014 : + de 20000 probalement

Par genre :

  • Femme : 404181   soit  62,5 %
  • Homme : 242960   soit  37,5%

Par âge :

0-16 88304 13.6
16-18 109005 16.8
18-25 282886 43.7
25-35 95491 14.8
35-45 43710 6.8
45-55 21212 3.3
55+ 6533 1.0

Par CSP :

NS 31086
Cadres informatiques 11810
Cadres autres secteurs 30841
Chefs d’entreprise 6329
Professions liberales 9805
Professions intellectuelles, artistiques 11485
Chercheurs ou medecins des hopitaux 3132
Enseignants ou personnels de la sante 18195
Etudiants 195691
Collegiens Lyceens 162600
Agriculteurs exploitants 2876
Ouvriers spe ou agricoles 9649
Artisans 4863
Commercants et assimiles 9251
Employes (informatique, telecoms) 11966
Employes de la fonction publique 27450
Employes des entreprises 57167
Retraites et pre-retraites 2117
Chomeurs et inactifs 40828

De l’importance du referentiel

Ref. Cerveau et psycho n°60.
Sur A.Humphreys et al. In journal of consumer research

L’etude porte sur les messages publicitaires des jeux d’argent en ligne. Plus exactement, comment en transformant le mot Gambling (parier) par Gaming (sens ludique) pour exactement le même contenu, le référentiel sémantique étant radicalement différent, les degrés de culpabilité et d’inquiétude le sont aussi.

Une fois de plus, chaque mot compte donc …

Un afflux soudain

Hier soir, 29 mai 2014, il y a eu un gros afflux de tests fait par des 16-25 ans.

Nous surveillons de près ce genre de pic et avons cherché l’origine. Assez rapidement nous avons identifié un article sur un forum de jeux vidéo.

Le message original est un jeune homme qui s’inquiétait d’avoir été positif sur le test de trace de troubles schizoïde. Finalement, il donne dans son billet l’adresse du site (ce qui explique le pic), et, une discussion s’engage avec d’autres jeunes personnes du forum en question.

La suite de l’échange se fait sur 3 pages et nous en retenons deux aspects intéressants:

  • Le premier est que le jeune homme décrit comment il voit régulièrement un psy professionnel, comment il sait qu’il a des réactions « étranges », comment ses parents s’inquiètent etc.
  • Le deuxième est que le discours des intervenants est de dire que « les tests de personnalité sur internet sont nuls » et amoindrir la pertinence (et donc l’inquiétude).

Et c’est là où nous sommes plutôt satisfait. En effet, nous avions hésité à mettre en place les tests de troubles et avions décidé que cela pouvait permettre un déclic. De toute évidence, c’est le cas et aux vues de la description du jeune homme, les résultats du test sont plutôt pertinents. Il est déjà dans un contexte de suivi, il sait qu’il a un problème, et pourtant, ce sont les résultats du test qui l’amène à en parler sur un forum !

Quant à l’image de « Les tests c’est nul », cela nous convient aussi parfaitement pour ce segment dans le sens où il est justement très important pour la « fraicheur » des réponses que ces dernières soient considérées comme dépourvues d’incidence.

Leader ou pas

Et voilà de quoi réfléchir…

Le facteur le plus corrélé, quelles que soient les méthodes de l’analyse factorielle, est un groupe de questions qui reflètent le leadership dans le sens « obéir/commander », comme les animaux.

Il est assez incroyable que l’analyse mathématique, hors théorie, nous sorte ce facteur comme étant le premier.

Une deuxième passe nous a permis de segmenter 4 variations/angles. Les résultats sont étonnants !

Nous avons mis en place cette dimension, que nous appelons « Alpha » et ces 4 variations. D’emblée, il y a d’énormes différences quand on sort les moyennes par CSP.

L’évident se vérifie en chiffres : Les CSP+ ont des moyennes largement supérieures au CSP- ,
Les hommes par rapport aux femmes, les 35-45 par rapport aux autres âges. etc.

De quoi faire de jolies publications.

Analyse factorielle

Après 14 ans d’accumulation de données, nous avons décidé d’épurer la base en enlevant tous les non-francophones, tous les résultats au temps impossible, etc.

Le résultat est une base de donnée propre et exploitable de plus de 650 000 observations.

La boite de pandore !

Nous commençons un long travail d’analyse de données avec cet angle particulier : Lancer des analyses factorielles géantes impliquant toutes les observations et toutes les questions…

Les résultats sont prometteurs.