Naissance de la notion de probabilité conditionnelle

jeudi 16 mai 2019
par  Alain BUSSER

Voici un extrait du programme de spécialité mathématiques de 1re :

Les probabilités conditionnelles peuvent être l’objet d’un travail historique en anglais ; elles apparaissent en effet dans des travaux de Bayes et de Moivre, écrits en anglais au XVIIIe siècle, même si c’est Laplace qui en a élaboré la notion.

On verra plus bas qui a élaboré la notion de probabilité conditionnelle, mais le travail en anglais a déjà été effectué dans le cadre d’un cours de BTS sur les probabilités conditonnelles. Cet article a pour but de montrer l’intérêt que peut présenter une telle démarche.

Repères historiques

En 1713, Nicolas Bernoulli publie un essai de son oncle Jacques Bernoulli, titré Ars Conjectandi (l’art de la conjecture), en latin, où il expose l’application des probabilités à la modélisation de la recherche scientifique. Dans cet ouvrage, Bernoulli pose, entre autres, le « problème inverse » :

Une urne contient des boules blanches et noires ; la proportion p de boules blanches est inconnue. On extrait de l’urne n boules (par exemple, avec remise) et on constate que k d’entre elles sont blanches. Que peut-on inférer sur le nombre p à partir de n et k ?

Autrement dit, Bernoulli demande la loi de p, à partir des données expérimentales disponibles (sondage de sortie d’urne). Comme on le verra plus bas, c’est Bayes qui a été le premier à résoudre ce problème. Mais Bernoulli progresse sur le problème direct qui consiste à calculer la loi du nombre de boules blanches : C’est la loi binomiale, dûe à Jacques Bernoulli.

En 1718, Abraham de Moivre publie the Doctrine of Chances dans lequel il cherche à résoudre le problème inverse par une sorte d’intervalle de confiance. Pour cela il avait besoin d’une approximation de la loi binomiale par une loi continue. Et comme des factorielles interviennent dans le calcul des coefficients binomiaux, de Moivre demande à James Stirling une telle approximation. Puis utilise la formule de Stirling pour obtenir la loi normale.

En 1728, Leonhard Euler a démarré des recherches similaires à celles de Stirling, sur l’interpolation de la factorielle. Il créa alors la fonction gamma, et au passage, en calculant des intégrales à l’aide de celle-ci, la fonction bêta. Or c’est justement la loi bêta, issue de ces recherches, qui sera la solution fournie par Bayes, au problème inverse de Bernoulli.

Il est difficile de savoir quand exactement Thomas Bayes a résolu le problème inverse. Sa solution a été publiée en 1763 dans les compte-rendus de la société philosophique royale de Londres, mais c’est son ami Richard Price qui a publié l’article au nom de Bayes, alors décédé, après avoir quelque peu complété l’article.

En 1774, Pierre-Simon de Laplace publie un Essai philosophique sur les probabilités, dans lequel figure la définition d’une probabilité conditionnelle qui figure plus bas dans cet article, et qui ressemble beaucoup à la traduction du texte de Bayes. Selon wikipedia, ce serait « sans être probablement au courant du travail (publié en 1763) de Thomas Bayes (mort en 1761) ». Qu’il soit ici permis d’en douter, puisque Laplace cite l’exemple de la probabilité que le soleil se lève demain, comme l’avait fait Price (en se reférant à Bayes).

En 1812, Laplace publie Théorie analytique des probabilités, un immense traité, considéré encore aujourd’hui comme fondamental en probabilités. On y retrouve bien entendu la définition des probabilités conditionnelles et la résolution du problème inverse.

Éléments biographiques

Les neveux de Jacques Bernoulli (Nicolas et Daniel) étaient des enfants mathématiciens et protestants de Bâle. Par le pasteur de la ville, ils ont eu l’occasion de jouer avec le fils du pasteur, lui-même rapidement repéré par toute la famille Bernoulli comme prodige des mathématiques. L’enfant en question n’était autre que Leonhard Euler, qui a travaillé avec ses amis d’enfance à l’université de Saint-Petersbourg par la suite.

Abraham de Moivre est né en France, mais suite à la révocation de l’édit de Nantes, il a dû se réfugier en Angleterre où il a fini sa vie. Selon Price, ce serait pour prouver que l’existence de Dieu a une haute probabilité, que de Moivre se serait intéressé au raisonnement inductif et à sa modélisation par la résolution du problème inverse.

Thomas Bayes était prêtre anglican (d’ailleurs Price l’appelait systématiquement Reverend Bayes). C’est sans doute pour répondre à des questions théologiques qu’il s’est posé la question de la probabilité que le soleil se lève demain.

Laplace n’était pas réputé pour sa modestie. Cela explique qu’il ait pu être peu enclin à céder à d’autres (notamment décédés) la paternité des résultats qu’il a publiés. Essentiellement connu comme astronome, il est assez logique qu’il se soit intéressé (mais pas pour des raisons théologiques) au lever du soleil chaque matin. Ses théories (à moins que ce soit celles de Condorcet) sur les tribunaux ont présenté moins d’intérêt que les publications de Condorcet sous l’ancien régime, puisqu’en 1812 la France était un empire et la théorie de la démocratie y avait peu d’importance pratique. Il est à noter que comme Condorcet, Laplace était marquis, mais d’empire (annobli par Napoléon).

Déroulé de la séquence

Dans un premier temps (avant même le cours sur les probabilités), a été distribué aux élèves, l’extrait ci-dessous du texte de Bayes :

Puis les passages ci-dessous ont été traduits, en classe, avec une explication de texte qui a servi de base au cours de probabilités.

version Bayes
traduction 1. Plusieurs évènements sont incompatibles lorsque si l’un d’entre eux survient, les autres ne le peuvent.
2. Deux évènements sont contraires lorsque l’un des deux doit survenir, mais les deux ne le peuvent en même temps.

Remarque

Tout évènement est donc incompatible avec son contraire. Le cours suivra le même ordre.

version Bayes
traduction La probabilité d’un évènement est le rapport entre la valeur à laquelle une quantité dépendant de l’évènement peut être calculée, et la valeur de ce qu’on attend sur sa survenue.

Remarque

Il semble qu’il y ait là une tentative maladroite de traduction de la définition « nombre de cas favorables sur nombre de cas possibles » donnée par Euler. C’est la définition d’Euler qui restera dans le cours, mais elle ne s’applique pas au cas continu qui est celui envisagé par Bayes.

Version Bayes
Traduction Deux évènements sont indépendants lorsque la survenue du premier ne modifie pas la probabilité du second.

Remarque

A priori, la définition donnée par Bayes (laquelle ressemble curieusement à celle de Laplace) suggère une relation entre évènements qui n’est pas symétrique. La définition du cours, que Bayes démontre par la suite, ne donne pas lieu à cet inconvénient. Voir plus bas. Dans le cours cette définition viendra après celle de la probabilité conditionnelle.

Version Bayes
Traduction Lorsque plusieurs évènements sont incompatibles, la probabilité que l’un d’entre eux survienne, est la somme des probabilités de chacun d’entre eux.

Remarque

Cette définition a été placée au début du cours, bien avant celle de la probabilité conditionnelle. En effet il s’agit d’un rappel. Et pour éviter la confusion entre incompatibilité (somme des probabilités) et indépendance (produit des probabilités) il vaut mieux ne pas faire ces deux cours le même jour.

Version Bayes
Traduction Dans une expérience de Bernoulli, le quotient entre la probabilité de succès et la probabilité d’échec est égal au quotient entre le nombre de succès et le nombre d’échecs.

Remarque

Bayes cherche surtout à simplifier les quotients de fractions : Le quotient de a/N par b/N est la fraction a/b. C’est ce qui permet de rendre équivalentes les définitions de Bayes et de Laplace pour la probabilité conditionelle.

Version Bayes
Version Laplace Quand deux évènemens dépendent l’un de l’autre, la probabilité de l’évènement composé est le produit de la probabilité du premier évènement, par la probabilité que cet évènement étant arrivé, l’autre arrivera.

Remarque

Bayes et Laplace semblent tous les deux préférer commencer par dire que P(A∩B)=PA(B)×P(A) plutôt que définir la probabilité conditionnelle d’emblée et en déduire cette égalité. Il faut dire que cette égalité s’applique aussi au cas où P(A)=0 si on admet que l’évènement impossible est indépendant de tout (autre) évènement.

Version Bayes
Version Laplace Si l’on calcule a priori, la probabilité de l’évènement arrivé, et la probabilité d’un évènement composé de celui-ci et d’un autre qu’on attend ; la seconde probabilité, divisée par la première, sera la probabilité de l’évènement attendu, tirée de l’événement observé.

Remarque

La définition de Bayes (quotient du cardinal de A∩B par celui de A) diffère de celle de Laplace (probabilité de A∩B par celle de A) mais seulement en apparence : On passe de l’une à l’autre en multipliant le numérateur et le dénominateur par N, comme on l’a vu plus haut.

Version Bayes
Traduction La probabilité que plusieurs évènements indépendants surviennent, est le produit de leurs probablités.

Remarque

Pour Bayes il s’agit d’une conséquence de la notion de probabilité conditionnelle. Mais en prenant ce résultat comme définition de l’indépendance entre évènements, on obtient une définition qui

  • permet de vérifier par le calcul si des évènements sont indépendants
  • montre que « A est indépendant de B » si et seulement si « B est indépendant de A »
  • Montre que l’évènement impossible est indépendant de tout (autre) évènement.

Loi binomiale chez Bayes

Version Bayes
Traduction La formule permettant de calculer la loi binomiale de paramètres p+q et a

Hors sujet dans le contexte présent, cette formule permet de faire le lien avec un cours ultérieur, sur la loi binomiale. Chez Bayes, c’est le départ de sa théorie où est calculée la loi bêta résolvant le problème inverse. Mais c’est aussi une application (comme ce sera vu dans le cours) de sa théorie sur l’indépendance des évènements : Bayes multiplie les probabilités parce que les répétitions de l’épreuve de Bernoulli sont indépendantes.

On constate que chez Bayes, l’usage des parenthèses pour isoler une somme n’est pas encore systématique, Bayes lui préfère une barre horizontale au-dessus de la somme, parfois assortie d’une barre verticale à droite. Quelques années plus tard, Condorcet hésite entre cette notation et les parenthèses modernes.

Le soleil se lèvera-t-il demain ?

La suite de l’article est réigée par Price, qui, entre autres, utilise la loi bêta de Bayes pour résoudre le problème suivant :

Sachant que le soleil s’est levé chacun des n matins précédents, quelle est la probabilité qu’il se lèvera demain ?

Price donne le résultat n/(n+1) qui tend vers 1 lorsque n tend vers l’infini. Laplace cite le même exemple, comme application de la loi bêta, avec le même résultat. Dans ces conditions, il paraît difficile d’admettre que Laplace ait ignoré les travaux de Bayes ; voici ce qu’il écrit au début de son essai :

En faisant, par exemple, remonter la plus ancienne époque de l’histoire à cinq mille ans, ou à 1 826 213 jours, et le soleil s’étant levé constamment dans cet intervalle, à chaque révolution de vingt-quatre heures, il y a 1 826 214 à parier contre un qu’il se lèvera encore demain.

Et l’hypothèse selon laquelle Laplace se serait inspiré des travaux de Bayes en ayant « oublié » de le citer, est renforcée par ce que W.W. Rouse Ball, historien des mathématiques, écrit sur Laplace :

Que Laplace soit présomptueux et égoïste n’est nié par aucun de ses plus passionnés admirateurs ; sa conduite à l’égard de ses bienfaiteurs lors de sa jeunesse et envers ses amis politiques est ingrate et, de plus, il s’approprie les résultats de ceux qui sont relativement inconnus. Parmi ceux qu’il traite de cette manière, trois deviennent très connus : Adrien-Marie Legendre et Jean Baptiste Joseph Fourier en France et Thomas Young en Angleterre. Ceux-ci n’oublieront jamais l’injustice dont ils furent les victimes.

Et la définition de Bayes, une fois traduite de l’anglais, sonne plus moderne que celle de Laplace :

Proposition 5 :

Si on considère deux évènements successifs, la probabilité du second étant b/N et la probabilité que les deux surviennent étant P/N, et si on apprend que le second évènement est effectivement survenu, la probabilité que le premier soit survenu aussi est P/b.

(Thomas Bayes, 1763)


Commentaires

Logo de gourbil
lundi 8 mars 2021 à 15h14 - par  gourbil

Merci beaucoup !