BlablaSciences » Paradoxe

Le paradoxe des anniversaires – le prix de l’unicité

Jérôme Malot — Sun, 28 Jun 2015 20:09:59 +0000

Vous êtes unique!

Le constat est étonnant et pourtant vous ne venez pas de vous étouffer de surprise. Et pour cause, notre unicité est acquise, un cadeau légitime dont on évalue pas toujours la valeur. Mais si l’extraordinaire complexité de notre génome a fait de nous des êtres sans pareil, saviez-vous qu’en mathématiques et en cryptographie, l’unicité est un caractère qui se paie le prix fort.
Facebook, prenons Facebook. Depuis que l’horloge du bon copain vous rappelle quotidiennement l’anniversaire de chacun de vos contacts, vous avez du remarquer que (oh miracle) certains d’eux étaient nés le même jour.
« Ouais badaud, en même temps avec 400 amis FB et 365 jours dans l’année… »
Très juste… maintenant laissez moi vous poser une question.

Vous arrivez ce matin au bureau, 20 personnes sont assises dans l’open-space. Quelle est la probabilité que deux personnes soient nées le même jour?

Par « nées le même jour », j’entends « aient leur anniversaire le même jour ». Et bien les incrédules pourront afficher le calcul ci-dessous, pour les autres, sachez que la probabilité avoisine 1 chance sur 2.
Plus surprenant encore, si vous comptez 50 personnes sur l’ensemble de votre étage, la probabilité que deux personnes soient nées le même jour est de 97%.
Enfin, si votre étage contient plus de 96 personnes… apprenez que vous avez plus de chance de mourir écrasé par un astéroïde que de ne pas trouver deux personnes nées le même jour… [Source pour la probabilité de mourir écrasé par un astéroïde: Nature].
Ces résultats assez contre-intuitifs sont bien connus des probabilistes et portent le joli nom de ‘paradoxe des anniversaires’.

Afficher la démonstration (niveau lycée)Cacher la démonstration

Supposons que votre open-space contienne N personnes. Je vous propose de calculer la probabilité pour qu’aucuns d’entre eux n’aient leur anniversaire le même jour.
On supposera qu’une année contient 365 jours et on négligera les années bissextiles.

Ci-dessous un petit récapitulatif numérique des probabilités en fonction du nombre de personnes dans votre bureau:

Application en cryptographie – sécurisation du WIFI

Le cryptage de votre WIFI: vous y avez forcément été sensibilisés, à genoux, recopiant docilement l’interminable clé WEP ou WPA de votre box Internet, priant le Dieu ADSL de ne pas vous être trompés d’un caractère. Et bien sachez que ce qui a été dit plus haut s’applique particulièrement en cryptographie et au fonctionnement de vos connexions WIFI.
Sans rentrer trop dans les détails, sachez que le mode de chiffrage des connexions WIFI a beaucoup évolué au cours de ces 10 dernières années, passant du simple protocole WEP au WPA pour aujourd’hui se concentrer sur le WPA2.
Le protocole WEP en particulier utilise un algorithme de chiffrage appelé RC4 pour coder les messages échangés avec votre Box. L’une des règles fondamentales en sécurité informatique et plus spécifiquement lors de l’utilisation de tels algorithmes est de s’assurer que deux messages identiques ne donnent pas lieu à la même sortie (au même message crypté). Dès lors, il n’est donc pas possible de chiffrer tous les messages avec la seule clé WEP (récupérée sur votre Box).
L’astuce utilisée est donc de constamment modifier la clé de cryptage en rajoutant aléatoirement 24 bits (3 octets) à votre clé WEP. Ces 24 bits sont appelés « vecteur d’initialisation ». Vous joignez ensuite ce vecteur d’initialisation au message pour que votre interlocuteur (ici votre box) puisse déchiffrer à son tour le message.
Le problème c’est qu’avec 24 bits, le vecteur d’initialisation ne peut prendre que 16 millions de valeurs différentes… C’est effectivement plus que 365… Mais le paradoxe des anniversaires s’applique une fois encore de telle sorte qu’après 12 000 messages échangés (quota atteint en quelques heures à peine), il n’y a déjà plus qu’une chance sur deux qu’aucun message n’ait été chiffré avec une clé déjà utilisée.
Ceci explique, entre autre, que depuis 2004 la majorité des connexions WIFI ont abandonné le WEP pour le WPA (qui utilise encore l’algorithme de chiffrement RC4 mais renforce l’alternance de la clé temporaire) puis le WPA2 (qui utilise un nouvel algorithme de chiffrement: AES).

Voilà qui devrait vous amener à apprécier encore d’avantage ce don précieux dont vous ne pesiez peut-être pas tout à fait le prix.

Références:
http://www.bibmath.net/crypto/index.php?action=affiche&quoi=chasseur/anniversaire
http://www.crack-wifi.com/forum/topic-7363-explications-plus-poussees-sur-le-decryptage-de-cle-wep.html
https://repo.zenk-security.com/Protocoles_reseaux_securisation/Les%20mecanismes%20de%20securite%20du%20Wireless%20LAN.pdf
http://pro.01net.com/editorial/213994/comment-wpa-securise-les-reseaux-radio-802-11/

Paradoxe de l’inspection – Introduction à la fatalité mathématique

Jérôme Malot — Mon, 23 Mar 2015 11:05:42 +0000

Nous nous sommes tous déjà confrontés à une forme d’acharnement divin, une situation pénible qui semble se répéter irrémédiablement. Certains l’appellent « loi de Murphy », d’autres « fatalité » mais rares sont ceux qui désirent y voir une forme de causalité mathématique.
Voyons ensemble un des plus célèbres paradoxes statistiques, j’ai nommé le paradoxe de l’inspection (parfois aussi appelé paradoxe du temps d’attente ou paradoxe de l’autobus).

Mise en situation – votre problème

Vous voilà l’heureux propriétaire d’un joli pavillon en proche banlieue parisienne. Certes ce n’est pas Paris, mais à ce qu’on vous a dit, la ville est bien desservie. En fait, un arrêt de bus se trouve à juste deux encablures de chez vous. Vous avez même mis la main sur un prospectus indiquant le passage régulier de bus vers la capitale (selon la compagnie: en moyenne toutes les 15 minutes!).
Vous voilà rassuré.
Les semaines passent… et peu à peu, le doute vous envahit. A chaque fois qu’il vous a fallu prendre ce bus, il vous a semblé attendre drôlement longtemps.
Inquisiteur, vous décidez alors de mesurer votre temps d’attente moyen à la station.
A priori, si vous tentez de prendre le bus aléatoirement en cours de la journée, vous devriez attendre en moyenne 7,5 minutes (le temps moyen de passage entre deux bus divisé par deux). En effet, les coups où vous arrivez juste avant le passage d’un bus devraient équilibrer les coups où vous arrivez juste après le passage d’un bus.
En statisticien zélé, vous persuadez même vos nouveaux voisins de vous aider à collecter ces données.
Après un peu plus de 3 mois d’observation et 500 inspections faites à l’arrêt de bus, le constat est sans appel: le temps d’attente moyen observé est de 15 minutes ! En fait, vous pouvez même assurer que le temps de passage observé entre deux bus est de 30 minutes en moyenne (alors que le prospectus indiquait un temps moyen de 15 minutes entre deux bus).
[L’ensemble des données collectées ainsi que les résultats obtenus sont joints à ce billet dans l’onglet « Inspection » du fichier téléchargeable [ici]]

Explication qualitative du problème

En fait, ici encore, le terme paradoxe est utilisé abusivement. La dimension paradoxale de ce problème émane d’un biais logique introduit par notre méthode d’observation.
Prenons un exemple plus gourmand, imaginons que je vous dise de couper un gâteau en 10 parts inégales (avec 5 grosses parts pour les gros mangeurs et 5 toutes petites parts pour les appétits d’oiseau). Maintenant, laissez tomber aléatoirement un couteau sur votre gâteau. Vous me croirai volontiers si je vous dis que votre couteau a plus de chance de tomber sur les plus grosses parts de gâteau.

Et bien dans notre histoire, c’est un peu ce qui s’est passé lorsque vous avez décidé d’inspecter les temps de passage des bus.
A chaque fois que vous vous rendiez à la station, vous aviez plus de chance de tomber sur un temps d’attente long (ex: deux bus espacés de 25 minutes) qu’un temps d’attente court (ex: deux bus espacés de deux minutes).
Résultat des comptes, la moyenne observée (30 minutes entre deux bus) est deux fois supérieure à la moyenne réelle de passage entre deux bus (15 minutes).
Pour le cas d’un réseau de bus dont l’arrivée à la station suit un processus de Poisson [1] , ce facteur 2 peut même être démontré mathématiquement. [Si cela vous intéresse, je vous invite à jeter un œil aux pages 64 et 65 du polycopié ci joint (Attention, quelques notions avancées de probabilité sont toutefois requises)]

Autres exemples d’application et extension au problème de confusion entre unité de sondage et unité d’analyse

Jusqu’à présent nous nous étions placés dans le cas particulier d’un problème de file d’attente suivant un processus de Poisson [1]. Ce contexte spécifique se retrouve également sous d’autres formes dans la nature:

Intervalle de temps entre deux pannes d’une machine
Délai d’attente entre deux clients dans une fille d’attente
Durée de présence d’un internaute sur une page web

Ce cas spécifique est appelé ‘paradoxe de l’autobus’ mais n’est qu’un cas particulier d’un paradoxe plus général appelé ‘paradoxe de l’inspection’.
En fait, à bien y regarder, l’erreur de raisonnement tient au fait que notre échantillonnage (nos inspections à la station de bus) n’est pas aléatoire mais est biaisé par une probabilité d’observation corrélée à l’objet observé (le temps d’attente entre deux bus).
Cette confusion dans l’observation d’un phénomène peut apparaître quelque soit la loi de distribution de l’objet d’analyse et on la retrouve fréquemment dans notre quotidien comme l’illustrent les deux exemples suivants:

Il y a encore quelques années (cela a bien changé depuis), les grandes compagnies aériennes affichaient des taux de remplissage inférieurs à 60% sur leurs vols européens. Pourtant, vous et moi n’avons jamais vraiment eu la chance de pouvoir nous étaler sur deux sièges. Une fois encore la probabilité plus élevé de voyager dans un vol plein nous oriente vers une reconstitution biaisée de la réalité.
« Dans l’après-guerre, un quart des mères avaient quatre enfants ou plus. Pourtant dans ma classe, comme dans les autres, nous étions la moitié à appartenir à une famille d’au moins quatre enfants ». Cet exemple rapporté par le démographe Laurent Toulemon illustre lui aussi le biais significatif tenant à la confusion entre l’unité de sondage (les mères) et l’unité d’analyse (les enfants).

Dans chacun de ces deux exemples, l’aspect paradoxal de l’énoncé résulte d’une erreur de raisonnement. Nous ne pouvons pas grossièrement confondre l’objet à observer sur lequel porte le sondage (respectivement les avions et les mères) et l’objet mesuré possédant sa propre probabilité d’observation (respectivement les passagers et les enfants).
Professionnellement ce biais induit par la probabilité d’observation peut parfois avoir une importance fondamentale. Imaginez que vous confiez une tache répétitive à un groupe de stagiaires et que désiriez apprécier le temps requis pour effectuer une tache unique (histoire d’adapter au mieux vos ressources). Vous pourriez alors être tenté d’aller inspecter chaque collaborateur à différents moments de la journée (histoire de prendre en compte la variation de productivité au cours de la journée). Et bien le paradoxe de l’inspection prédit que vos inspections ont ‘plus de chance’ de se dérouler durant les traitements de tâche les plus longs et donc de vous donner une image dépréciée de la productivité de vos employés.

Conclusion

Le caractère paradoxal du phénomène décrit dans ce billet témoigne de la difficulté pour un individu de reconstituer une réalité à partir de son expérience (aussi large soit-elle).
Alors la prochaine fois que les mots ‘loi de Murphy’ ou ‘pas de bol’ pointent leur nez dans une conversation, demandez vous si tout cela n’était finalement pas un peu prévisible (mathématiquement parlant j’entends).
Enfin, pour le plaisir, terminons ce billet par un échange rapporté entre le truculent Boris Vian et le réalisateur Pierre Kast. Bien sûr les mots sont, à l’image de l’homme,virulents et impérieux. Mais nous sommes dans un monde où l’on avoue plus volontiers son inaptitude mathématique que son insuffisance littéraire, et ne serait-ce que pour ça, ces quelques lignes donnent à sourire.

BORIS VIAN. — […] Je parle du Français littéraire qui prétend s’intéresser à la science-fiction.
Quel est le lecteur idéal, alors?
Le lecteur idéal pour les romans de science-fiction, c’est le mathématicien, le physicien ou les gens très cultivés du modèle de Raymond Queneau, qui savent à la fois ce que l’on fait en littérature, ce que l’on fait en mathématiques, ce que l’on fait en physique. Ce sont les gens qui ne font pas un mur entre eux et une partie de la connaissance.

PIERRE KAST. — Des coordinateurs.

BORIS VIAN. — Des coordinateurs, les gens qui sont pour la synthèse.Parce que c’est très joli, c’est extrêmement connu et extrêmement courant de dire en français, de dire avec orgueil: «Moi, je ne comprends rien aux maths.» Personnellement, je fais la réflexion suivante : «Si je ne comprends rien aux maths, j’aurais plutôt honte de le dire.» Se présenter de but en blanc comme un imbécile n’est pas le meilleur moyen de se présenter. Un type-qui- ne-comprend-rien-aux-maths est un fieffé imbécile, un point c’est tout!

[1] Processus de Poisson: Un processus de Poisson permet de définir la façon dont va se dérouler une succession d’événements indépendants entre eux. Ce processus se retrouve souvent dans la nature: décroissance radioactive, modélisation de file d’attente, … Il tient son nom du mathématicien Siméon Denis Poisson (l’un des 72 scientifiques dont le nom figure sur la périphérie du premier étage de la tour Eiffel).
Mathématiquement, on définit un processus de Poisson comme ce qui suit.
Si on appelle N(t) le nombre d’événements (ex: arrivée de bus à la station) qui se sont déroulés pendant l’intervalle de temps [0;t]. On dit que N est un processus de Poisson d’intensité l si les variables représentant les intervalles de temps entre deux événements consécutifs suivent toutes une loi exponentielle de paramètre l (avec l>0) [c’est à dire que la probabilité d’occurrence de ces événements (leur fonction de masse) évolue exponentiellement avec le temps].

Références:
https://www-fourier.ujf-grenoble.fr/~decauwer/polyscilab.pdf
http://www.infres.enst.fr/~decreuse/downloads/poisson.pdf
http://www.recherche.enac.fr/math/oldenseignement/procstochF04/Poly/poisson.pdf
publications-sfds.math.cnrs.fr/index.php/StatEns/article/download/5/3
http://w3.bretagne.ens-cachan.fr/math/people/benoit.cadre/fichiers/LIVRE_PROC.pdf

Pour aller plus loin

AfficherCacher

Méthode de création de l’exemple du bus [ici] (notion requises: Probabilités (Mathématiques élémentaires))
Dans l’exemple de l’autobus illustré dans ce billet, il m’a d’abord fallu créer un processus de Poisson pour simuler les horaires réels de passage des bus.
Pour cela, nous allons tenter de modéliser les temps passage entre deux bus. Comme expliqué dans la note 1, ces variables suivent une loi exponentielle de paramètre λ > 0. Une variable aléatoire réelle suit la loi exponentielle de paramètre λ > 0 si elle admet la densité de probabilité (ou fonction de masse) λe^(−λx) sur ]0, +∞[.
Par intégration de sa densité sur ]0, t[, on peut définir la probabilité qu’un bus arrive dans cet intervalle de temps. On appelle cette probabilité la fonction de répartition de la loi exponentielle. Cette fonction vaut F(t) = 1−e^(−λt).
On a notre probabilité (F(t) compris entre 0 et 1) en fonction du temps. Problème, c’est « t » qui nous intéresse…
Il nous faudrait donc ce que l’on appelle la fonction réciproque de F(t), c’est à dire une fonction qui quelque soit une probabilité A donnée entre 0 et 1, nous donne le temps « T » tel que F(T)=A.
Par chance, la fonction F définit une bijection de ]0, +∞[ sur ]0, 1[ et sa fonction réciproque est :
G(ω) = − ln(1 − ω)/ λ avec ω une variable aléatoire suivant la loi uniforme sur ]0, 1[.
On peut finalement remplacer 1 − ω par ω (ces deux variables suivent la même loi) et l’on peut finalement simuler autant de ‘temps d’attente de bus’ que désirés en calculant les valeurs :
-ln(rand())/λ avec rand() une fonction aléatoire uniforme sur ]0, 1[ ; et λ=1/Moyenne de passage entre deux bus=1/15.

Vous pouvez à priori tout faire sur Excel, pour ma part j’ai utilisé Scilab (une alternative Open-source à Matlab) pour générer mes échantillons.
Ci-dessous, la fonction Scilab de génération d’une valeur par un processus de Poisson de paramètre Lambda:
lambda=1/15;n=1000;m=1;
-log(grand(n,m, »def »))/lambda

Vous avez alors vos horaires de passage des bus, la moyenne de passage entre deux bus est bien de 15 minutes (15.32min dans mon exemple). Ne reste plus qu’à générer vos horaires d’inspection aléatoirement (via Excel [fonctions Alea() ou rand()], ou via Scilab) et le tour est joué.

L’effet Yule-Simpson ou comment booster la confiance par le chiffre

Jérôme Malot — Mon, 03 Nov 2014 23:00:34 +0000

Il y a une semaine, le gouvernement publiait les derniers chiffres du chômage laissant place à une nouvelle vague de morosité dans les médias. Le timing semble bon pour rappeler que « sens critique » ne rime pas toujours avec « pessimisme ». Et à l’heure où les plus grandes chaines d’information ne jurent plus que par le « fact-checking », on serait bien tenté de s’agenouiller devant la sacro-sainte donnée brute, celle que l’on préfère priver d’analyse.
Heureusement, la vérité échappe souvent aux raisonnements les plus simplistes. Et alors qu’on nous assène de chiffres, passons en revue quelques exemples qui pourraient nous donner d’avantage à réfléchir la prochaine fois que la sentence de la décroissance sera prononcée.

Introduction à l’effet de Yule-Simpson

Mettons nous en situation, ce matin je lis mon journal, un café brûlant au bout des doigts, et j’apprends que le loyer moyen de ma ville a augmenté de +3% au cours des 12 derniers mois. Revêche, je me dis que le maire a encore loupé une occasion de tenir ses promesses.

Puis, curieux, j’avale d’un trait mon petit brun et décide de regarder dans quels arrondissements les loyers ont augmenté.
J’épluche alors les rapports de la mairie et constate que, loin d’avoir augmenté, les loyers moyens ont baissé dans tous les arrondissements de ma ville.
Dans chacun des 4 arrondissements, le loyer moyen a baissé entre 0.4 et 0.8%.

Je fais donc le constat insolite suivant: lorsque je regarde l’ensemble des locataires de ma ville, sur les 12 derniers mois, le loyer moyen a significativement augmenté mais lorsque je découpe ce même ensemble par arrondissement et que je regarde chaque arrondissement individuellement, tous les arrondissements ont vu leur loyer moyen diminuer.
En définitive, les mesures prises par le maire semblent finalement avoir été efficaces dans tous les arrondissements de la ville.
Voilà mon erreur admise et ma curiosité décuplée. En néophyte, je pourrais même penser que l’effet Yule-Simpson est un paradoxe ésotérique imprévisible.

En réalité, l’effet Simpson répond à une logique implacable. Pour mieux comprendre, il faut s’attarder sur l’évolution de la répartition des locataires par arrondissement.
Un simple coup d’œil aux loyers moyens par arrondissement permet de remarquer que le 2ème arrondissement fait figure de quartier chic, les loyers y sont beaucoup plus élevés qu’ailleurs. Or durant les douze derniers mois, la part de locataires dans cet arrondissement a augmenté faisant subséquemment augmenter le loyer moyen de la ville et ce bien que le loyer moyen au sein même de cet arrondissement ait diminué.
Par conséquent, même si, pris individuellement, chaque arrondissement a vu son loyer moyen baisser, au global le loyer moyen de la ville a augmenté.
Le plus paradoxal dans cet exemple est que si je n’avais pas disposé de l’information par arrondissement, je me serais sans doute forgé une opinion négative de notre bon maire.

Application de Yule-Simpson aux derniers chiffres publiés par la DARES⁽¹⁾ :

Intéressons-nous maintenant à l’impact du travail de l’agence pour l’emploi sur la durée d’inactivité des demandeurs d’emploi en France. Les chiffres publiés par la DARES semblent parler d’eux-mêmes, entre aout et septembre 2014, le nombre de demandeurs d’emploi de catégories A, B et C en France métropolitaine est passé de 5 078k à 5 128k et la durée d’inscription moyenne s’est maintenue à 283 jours.

Découpons maintenant cette population entre demandeurs d’emploi de moins de 50 ans et demandeurs de plus de 50 ans.

Surprise, une fois encore, la conclusion change et nous voilà bien forcés d’admettre que l’action de l’agence pour l’emploi a bien eu un effet positif sur ces deux sous-populations.

Ainsi étonne le paradoxe de Simpson. Mais ne vous y trompez pas, le phénomène n’est pas rare et apparait fréquemment dans les analyses de données statistiques. Les exemples historiques ne manquent d’ailleurs pas et je vous recommande ce très bon article du professeur Thomas C. Redman qui illustre un autre cas d’erreur d’interprétation propre au secteur du multimédia [le lien ici]

Mieux comprendre et anticiper le phénomène :

Le cœur de ce paradoxe repose sur (i) l’hétérogénéité de l’échantillon (les spécialistes parlent d’échantillon non randomisé) et sur (ii) l’existence d’un facteur de confusion, c’est-à-dire d’une propriété de l’échantillon (ici l’âge du demandeur d’emploi) possédant un fort coefficient de corrélation avec la variable observée (ici la durée d’inscription à pôle emploi). En réalité dans notre exemple, l’augmentation de la durée d’inactivité est expliquée par l’augmentation de la part de demandeurs d’emploi de plus de 50 ans sur la période.
Une fois encore, le plus troublant est que si nous n’avions pas disposé des données chiffrées par tranche d’âge, nous aurions pu finalement être tentés de conclure que, sur la période août-septembre :

le nombre de demandeurs d’emploi a augmenté VRAI
quel que soit l’âge d’un demandeur d’emploi, sa durée d’inscription moyenne d’inscription a également augmenté. FAUX

Nous sommes ici au plein cœur de la notion même de probabilité conditionnelle à l’origine de nombreux paradoxes (paradoxe des deux enfants, le paradoxe des deux enveloppes, le paradoxe des prisonniers,…).

Conclusion :

Beaucoup de gens confondent pessimisme et scepticisme. Le sens critique est une vertu qu’il est également bon d’employer quand le tableau est plus sombre. Quelques soient les situations, l’analyse est vitale et nécessite bien souvent plus de données que prévues.
Ainsi même lorsque la tendance est négative sur une population donnée (les français, les demandeurs d’emploi, …), il peut parfois suffire de découper cette population en sous-groupes cohérents pour faire apparaître une tendance plus positive sur toutes les sous-populations.
Ne rendons pas le tableau plus noir qu’il ne l’est, et lorsque toutes les données ne sont pas disponibles, restons prudents et ne sacrifions pas la confiance sur l’autel de la facilité.

⁽¹⁾DARES : Direction de l’animation de la recherche, des études et des statistiques

References:
http://blogs.hbr.org/2014/10/when-it-comes-to-data-skepticism-matters
http://www.college-de-france.fr/site/stanislas-dehaene/course-2012-01-10-09h30.htm
http://sciencetonnante.wordpress.com/2013/04/29/le-paradoxe-de-simpson/
http://radio-weblogs.com/0101454/stories/2002/09/16/spamDetection.html
http://homepages.ulb.ac.be/~sgutt/probastatistique.pdf

Pour ceux qui veulent aller plus loin :

AfficherCacher

Le paradoxe de Yule-Simpson s’intègre dans un cadre plus large : la théorie des probabilités conditionnelles, reposant notamment sur les travaux de Thomas Bayes. Cette théorie nous permet de distinguer deux probabilités bien distinctes d’occurrence d’un évènement. Prenons l’exemple de la probabilité d’obtenir un roi lorsque nous tirons une carte dans un jeu de 32 cartes. Nous distinguons alors :

Sa probabilité à priori : elle caractérise la probabilité plausible d’occurrence de l’évènement avant d’en avoir observé les causes possibles. Ici, elle s’évalue à 0.125 (4/32).
Ses probabilités à postériori : il s’agit des probabilités d’occurrence d’un évènement sachant qu’un autre évènement a été réalisé. Par exemple : la probabilité de tirer un roi, sachant que nous avons retiré du jeu de cartes toutes les cartes inférieures au valet.

On comprend facilement que l’on peut définir autant de probabilités à postériori que l’on veut pour un évènement donné.

Notons qu’il existe ainsi des méthodes d’évaluation de la probabilité à priori (plausibilité des hypothèses) à partir de la mesure de probabilités à postériori. C’est ce qu’on appelle l’inférence bayésienne et c’est notamment sur la base de ces méthodes que chaque jour vos mails sont classés ou non en SPAM. En lien ici, un article sur le sujet.
Dans l’exemple de la durée d’inscription à Pôle Emploi, nous n’effectuons pas de mesure de probabilité à priori. Ainsi pour chacun des mois d’août et de septembre, nous mesurons la durée moyenne d’inscription sachant que le nombre de demandeurs d’emploi de plus de 50 ans est de X%. Ce nombre X changeant entre les deux mois, nos moyennes ne sont pas comparables.
La clé est donc là, chaque analyse doit reposer sur une population d’individus comparables.
Une question doit maintenant vous brûler les lèvres et il s’agit sans doute du point le plus intéressant de ce problème.
Dans l’exemple de la durée d’inscription à Pole-Emploi, comment puis-je être sûr qu’il n’existe pas encore d’autres facteurs (département, sexe, tour de mollets, …) pouvant une nouvelle fois remettre en cause notre conclusion.
Pour répondre formellement à cette question, il nous faudrait :

Disposer de ces données, or Pôle Emploi ne communique les durées d’inscription que par tranche d’âge.
Établir que ces facteurs sont corrélés avec la durée d’inscription moyenne des demandeurs d’emploi
Établir que cette corrélation accouche bien d’une causalité. Et là croyez-moi, le débat change de niveau…

En définitive, il ne nous reste que notre sens critique, et l’on pourrait bien légitimement penser que des analyses par sexe ou département de la durée d’inscription seraient des axes d’investigation intéressants à mener.
Une fois encore, une bonne politique de gestion repose avant tout sur la pertinence des indicateurs collectés. Quand ces indicateurs manquent, sans être des Pangloss, ne cédons pas à la morosité facile.

BlablaSciences » Paradoxe

Le paradoxe des anniversaires – le prix de l’unicité

Vous êtes unique!

Vous arrivez ce matin au bureau, 20 personnes sont assises dans l’open-space. Quelle est la probabilité que deux personnes soient nées le même jour?

Application en cryptographie – sécurisation du WIFI

Paradoxe de l’inspection – Introduction à la fatalité mathématique

Mise en situation – votre problème

Explication qualitative du problème

Conclusion

Pour aller plus loin

L’effet Yule-Simpson ou comment booster la confiance par le chiffre

Introduction à l’effet de Yule-Simpson

Application de Yule-Simpson aux derniers chiffres publiés par la DARES(1) :

Mieux comprendre et anticiper le phénomène :

Conclusion :

Pour ceux qui veulent aller plus loin :

Application de Yule-Simpson aux derniers chiffres publiés par la DARES⁽¹⁾ :