Chargement en cours
Si vous cliquez sur une référence, la définition ou le théorème apparaitra ici
Chapitre 15 : Probabilités

I Cadre théorique

I.1 Ensembles dénombrables

I.1.1 Définition

Soit E un ensemble quelconque.
  1. On dit que E est dénombrable ssi il existe une application ϕ:NE bijective. En d'autre termes, on peut écrire E={x0,x1,} sans oublier un seul élément.
  2. On dit que E est au plus dénombrable ssi E est fini ou dénombrable.
I.1.2 Fini ou dénombrable
Les ensembles finis ou dénombrables sont exactement les ensembles pour lesquels on peut numéroter les éléments, ou encore les décrire sous la forme {xn nN} (quitte à prendre une infinité de fois la même valeur pour xn dans le cas des ensembles finis).
I.1.3 Théorème
  1. N{0} est dénombrable.
  2. Z est dénombrable.
  3. N×N et Z×Z sont dénombrables.
  4. Si E et F sont dénombrables alors E×F est dénombrable.
Preuve
  1. Encore heureux ! ϕ:{NN{0}nn+1 est une bijection convenable.
  2. Exhibons une bijection de Z dans N . On pose ϕ:{ZNk{2n si n02×(n)+1 si n<0.ϕ est une bijection. Pour le prouver on peut soit examiner l'injectivité et la surjectivité, soit exhiber sa réciproque.
  3. cf 4.
  4. Notons E={ei| iN} et F={fi| iN} . L'idée ici et d'énumérer tous les éléments de E×F ``par diagonale'' : on représente E sur l'axe des abscisses, F sur l'axe des ordonnées (un élément de chaque sur chaque entier, e0,f0 situés en 0). On énumère les éléments de E×F de la manière suivante : pour chaque kN , on part de (ek,f0) (graphiquement sur l'axe des abscisses), puis on considère (ek1,f1),(ek2,f2)(e0,fk) . Plus précisément, si (i,j)N2 , on note k=i+j et alors on a déjà rempli k diagonales donc numéroté p=1kp=k(k+1)2 éléments, et (ei,fj) est l'élément numéro k(k+1)2+j (on vient de créer la bijection...)
I.1.4 Remarque
On doit pouvoir prouver que tout ensemble inclus dans un ensemble dénombrable est fini ou dénombrable. Ainsi Q doit être dénombrable, mais ce n'est pas au programme.
I.1.5 Coin culture
R n'est pas dénombrable, P(N) non plus. Il semble alors évident que C,RI,C(I,R) ne sont pas dénombrables (pour le dernier, considérer le sous ensemble des fonctions constantes...).
I.1.6 Objectif
On souhaite étendre la notion de variable aléatoire à ces variables à valeurs dans un ensemble dénombrable (le cas fini est traité en 1ère année). Un des buts est de pouvoir modéliser le genre de situation suivante :
On joue à pile ou face jusqu'à ce que la pièce tombe sur pile. Quel est le nombre moyen de coup ? Le problème pour l'instant est qu'on ne peut pas borner à priori le nombre de coups à jouer et donc la variable aléatoire dont la valeur est ce nombre de coup est a priori à valeurs dans N{0} .

I.2 Espaces probabilisable

I.2.1 Notation
Si les Ai sont des ensembles pour iN , on note iNAi={x| iN xAi} la réunion de ces ensembles et iNAi={x| iN xAi} leur intersection.
I.2.2 Définition

Soit Ω un ensemble que l'on appellera univers. Une tribu sur Ω est un sous ensemble T de P(Ω) (les éléments de T sont des sous ensembles de Ω ) qui vérifie les 3 conditions :
  1. ΩT
  2. AT AC=A¯=ΩAT .
  3. Si (An)TN alors nNAnT .
Les éléments de T (qui sont des ensembles, rappelons le) sont des événements . Le couple (Ω,T) est un espace probabilisable .
I.2.3 En pratique
Ω représente l'ensemble des issues possibles d'une expérience aléatoire et un événement un ensemble de résultat possibles. Pour reprendre notre jeu de pile ou face, on peut prendre Ω=N{0} et un événement peut être ``le jeu s'arrête en un nombre pair de coup`` qui est l'ensemble {2n| nN{0}} .
Bien souvent, Ω n'est pas précisé et sa connaissance n'est pas indispensable au bon déroulé de l'exercice. On supposera dans ce cas qu'une bonne tribu est choisie.
I.2.4 Proposition

Soit (Ω,T) un espace probabilisable.
  1. T .
  2. Si (An)nNTN nNAnT . De plus, nNAn=nNAnc¯
Preuve
Exo !

I.3 Espace probabilisé

I.3.1 Définition

Soit Ω un ensemble et T une tribu sur Ω . Une probabilité sur Ω est une fonction P qui associe à chaque événement A une probabilité P(A)[0,1] avec les contraintes suivantes :
  1. P(Ω)=1
  2. Si (An)nN est une suite d'événements incompatibles deux à deux (ie disjoints deux à deux), alors P(nNAn)=n=0+P(An) : propriété de σ-additivité
En particulier, toute série de la forme précédente doit converger vers un nombre dans [0,1] .
Le triplet (Ω,T,P) est appelé un espace probabilisé . Dans la suite du cours, nous utiliserons ces notations.
I.3.2 Cas fini
Si on considère une suite (An)nN d'événements telle que An= pour tout n2 , on retrouve la définition de 1ère année. Avec un nombre fini de An non vide, la σ -additivité est une propriété démontrée en 1ère année.
I.3.3 Mais pourquoi des tribus ?
Dans le cas où Ω est fini ou dénombrable, on pourra prendre T=P(Ω) sans problème. Les choses se corsent singulièrement si on prend Ω non dénombrable.
Par exemple, on prouve (un ``on'' qui est bien en dehors du cadre de ce cours), qu'on ne peut pas poser Ω=[0,1],T=P(Ω) et la probabilité uniforme naturelle qui vérifie P([a,b])=ba .
I.3.4 Définition

Soit A un événement.
  1. Si A et P(A)=0 on dit que A est négligeable .
  2. Si AΩ et P(A)=1 on dit que A est presque sûr.

I.4 Propriétés des probabilités

I.4.1 Proposition (Adaptation de la 1ère année)

Soit (Ω,T,P) un espace probabilisé. Soient A,B deux événements et (An)nN une suite d'événements.
  1. P()=0
  2. P(Ac)=P(A¯)=1P(A) .
  3. Si AB alors P(A)P(B) .
  4. P(AB)=P(A)+P(B)P(AB) et P(AB)=P(A)+P(B)P(AB) .
  5. P(k=0NAk)k=0NP(Ak) pour tout NN .
Preuve
  1. Ω=Ω
  2. Ω=AAc
  3. B=A(BA)
  4. AB=A(BA)
  5. Par récurrence, en partant du cas n=2 prouvé par le point précédent.
I.4.2 Théorème

Soit (An)nN une suite d'événements.
  1. Si (An)nN est croissante au sens de l'inclusion ( nN AnAn+1 ) alors P(nNAn)=limn+P(An)
  2. Si (An)nN est décroissante au sens de l'inclusion ( nN An+1An ) alors P(nNAn)=limn+P(An)
Le résultat important est l'existence de ces limites.
Preuve
Le complémentaire d'une réunion étant l'intersection des complémentaires, nous prouvons seulement le premier point.
Supposons donc (An)nN croissante au sens de l'inclusion. Alors la suite (P(An))nN est croissante et majorée par 1 donc converge.
Pour nN{0} , posons Bn=AnAn1 et B0=A0 . Alors les Bi sont disjoints deux à deux (pour imager, Bn est ce qu'il manquait à An1 pour devenir l'ensemble An qui est ``plus grand'').
De plus, k=0nBk=An=k=0nAk . Ainsi nNAn=nNBn et donc P(nNAn)=n=0+P(Bn)=P(B0)+n=1+(P(An)P(An1)) .
La série est télescopique et converge vers limn+P(An)P(A0) , ce qui conclut la preuve.
I.4.3 Proposition (Sous-additivité)

Soit (An)nNTN telle que P(An) converge. Alors P(nNAn)n=0+P(An) .
Preuve
Pour nN , on pose Bn=k=0nAk qui est une suite croissante d'événements. Alors nNAn=nNBn et d'après le théorème précédent, P(nNAn)=limn+(P(Bn)) .
Ainsi (P(k=0nAk))nN possède une limite et on peut passer à la limite l'inégalité I.4.1 de la proposition I.4.1 (Rappel : l'hypothèse du passage à la limite des inégalité est seulement l'existence des limites).
I.4.4 Evénements négligeables
Si tous les An sont négligeables, alors leur réunion l'est aussi.

II Calcul de probabilités

II.1 Systèmes complets

II.1.1 Proposition (Définition d'une probabilité)
Si (An)nN est une suite d'événements incompatibles deux à deux, alors P(nNAn)=n=0+P(An)[0,1] et toute série de la forme précédente (série de probabilités d'événements deux à deux incompatibles) est une série à termes positifs convergente, de limite (somme de la série) dans [0,1]
II.1.2 Définition

Notons, pour nN , An un événement (donc An est un sous-ensemble de Ω ).
On dit que (An)nN est un système complet d'événements ssi (i,j)N2 ijAiAj= (disjoints 2 à 2) et nNAn=Ω .
II.1.3 Proposition
Si (An)nN est un système complet d'événements, alors P(nNAn)=1
Preuve
C'est une conséquence immédiate de la définition.
II.1.4 Définition
Notons, pour nN , An un événement (donc An est un sous-ensemble de Ω ).
On dit que (An)nN est un système quasi-complet d'événements ssi (i,j)N2 ijAiAj= (les An sont disjoints 2 à 2) et P(nNAn)=1.
En d'autre termes, la probabilité qu'aucun des An ne soit réalisé est nulle, et l'un exactement des An est réalisé presque sûrement (avec une probabilité 1, un et un seul des An est réalisé).
II.1.5 Exemple
Reprenons l'exemple du jeu de pile ou face. On pose An l'événement : le jeu s'arrête au n+1 ième lancé, ie on a obtenu n fois face avant d'obtenir pile. On pose en plus A1 l'événement : le jeu ne s'arrête pas.
Alors (An)n1 est un système complet d'événements. Essayons de construire un probabilité raisonnable.
On doit avoir n=1+P(An)=1 . Il semble raisonnable de poser P(An)=12n+1 (quelle hypothèse faisons nous sur chaque lancé, sur la pièce ?)
Alors P(A1)=0 est la seule possibilité (calculer la somme des probabilités imposées), ce qui semble raisonnable.
Les événements (An)nN forment un système quasi-complet d'événements et on peut exclure l'événement A1 de notre système.
II.1.6 Proposition (Système complet d'événements)
Si (An)nN est un système (quasi)-complet d'événements et B est un événement, alors
  1. P(nNAn)=1
  2. P(B)=n=0+P(BAn)
On retrouve le cours de première année en prenant un système complet fini (tous les An sont vides sauf les quelques premiers).
Preuve
B est la réunion disjointe des BAn et éventuellement d'un ensemble de probabilité nulle.

II.2 Probabilités conditionnelles

II.2.1 Définition-proposition

Soit B un événement tel que P(B)>0 .
  1. Pour un événement A , la probabilité de A sachant B est P(A|B)=P(AB)P(B)
  2. L'application PB:{T[0,1]APB(A)=P(A|B) est une probabilité. C'est la probabilité conditionnelle sachant B .
Preuve
On doit prouver que PB est une probabilité sur l'espace probabilisable (Ω,T) .
  • PB(Ω)=P(BΩ)P(B)=1 car BΩ=B .
  • Soit (An) une suite d'événements incompatibles 2 à 2. Évaluons PB(nNAn) .
  • On a déjà (nNAn)B=nNAnB De plus, les événements (AnB) sont 2 à 2 incompatibles et donc


    PB(nNAn)=1P(B)P((nNAn)B)=1P(B)n=0+P(AnB)=n=0+PB(An)

où on a utilisé le fait que P est une probabilité et la liéarité de la somme de série convergente.
II.2.2 Interprétation
Tout se passe comme si on prennait pour univers l'événement B . Ou encore que l'on suppose que B est réalisé pour évaluer la probabilité que d'autres événements se réalisent. Il ne faut pas confondre cette notion avec l'intersection qui représente le fait que deux événements se réalisent en même temps.
Pour illustrer ceci, voici un exemple. On considère que l'on lance un dé équilibré à 6 faces.
  • La probabilité d'obtenir un nombre pair et un 6 est de 16 .
  • La probabilité d'obtenir un 6 sachant qu'on a obtenu un nombre pair est 13
II.2.3 Proposition (Formule des probabilités composées)
  1. Pour A,B des événements, si P(B)>0 alors P(AB)=P(A|B)P(B) . Rappelons en plus que P(AB)=1P(A¯B¯)
  2. Si A1,,An sont des événements tels que P(k=1n1Ak)0 alors P(k=1nAk)=P(A1)×P(A2|A1)×P(A3|A1A2)××P(An|k=0n1Ak)
II.2.4 Exemple
Un savant fou choisi dans la salle de classe des cobaye parmi les élèves. Aucune chance de s'en sortir. Quelle est la probabilité pour qu'il choisisse successivement un garçon, une fille puis un garçon ?
On cherche P(G1F2G3)=P(G1)P(F2|G1)P(G3|G1F2) .
II.2.5 Proposition (Probabilité totales)

Il s'agit de traduire les propriétés des probabilités vis-à-vis de l'intersection en termes de probabilités conditionnelles.
  1. Soit A un événement ni négligeable ni presque sûr ( P(A)]0,1[ ). Alors A,A¯ forment un système complet d'événements et pour tout événement B , P(B)=P(B|A)P(A)+P(B|A¯)P(A¯).
  2. Pour (An)nN un système complet d'événements (y compris fini) et B un événement P(B)=n=0+P(B|An)P(An) où l'on convient que P(B|An)P(An)=0 si P(An)=0 .
Preuve
Immédiat.
II.2.6 Exemple
Un site internet a une audience séparée en deux types : les respectueux qui représentent 90\% des inscrits et les trolls 10\%. Les premiers ont un probabilité de 0.1 de participer à une discussion houleuse sur une journée, les second 0.7.
Un nouvel utilisateur s'inscrit. Avec quelle probabilité participe-t-il à une discussion houleuse dès le premier jour ? Dans les deux premiers jours ?
Notons T l'événement ``le nouvel arrivant est un troll'' et D l'événement ``il participe à une discussion houleuse''.
P(D)=P(T)×P(D|T)+P(T¯)×P(D|T¯)=110×710+910×110=425 .
Ainsi P(D¯)=2125 et la réponse à la deuxième question est 1(2125)2=1441625=1846650.3 On fait ici l'hypothèse que les journées sont indépendantes.
Pour calculer la probabilité d'une réunion (discussion houleuse le jour 1 OU le jour 2, on calcule plutôt la probabilité de l'événement contraire qui est une intersection.)
II.2.7 Proposition (Formule de Bayes)

Soient A,B deux événements non négligeables ( P(A)>0 et P(B)>0 ). Alors P(B|A)=P(B)P(A)P(A|B).
En pratique, on calcule souvent le dénominateur par la formule des probabilités totales.
II.2.8 Exemple
Malfaçon ou triche organisée ? Toujours est-il que sur les 100 dés à 6 faces produits aujourd'hui 25 on une probabilité de 1/2 de tomber sur 6...
On choisi un de ces dés et on le lance. Il tombe sur 6. Avec quelle probabilité est-il pipé ?
Notons S l'événement ``le dé tombe sur 6'' et T l'événement ``le dé choisi est pipé''. On cherche P(T|S) .
On connaît P(S|T)=12 , P(T)=14 . Il nous manque P(S)=P(T)P(S|T)+P(T¯)P(S|T¯)=1411+3416=14.
Ainsi P(T|S)=P(T)P(S|T)P(S)=12 .
II.2.9 Cas d'application
Généralement l'énoncé donne P(A|B) et P(B) . Il faut calculer P(A) par la formule des probabilités totales.

II.3 Evénements indépendants

II.3.1 Définition
Soient A,B deux événements
On dit que A et B sont indépendants ssi P(AB)=P(A)P(B) .
II.3.2 Lien avec les probabilités conditionnelles
Si on suppose P(B)>0 , la condition A et B sont indépendants devient P(A)=P(A|B) .
La réalisation de A ne dépend pas de celle (préalable) de B .
II.3.3 Définition
Soient A1,,An des événements. On dit qu'ils sont indépendants ssi I1,nP(iIAi)=iIP(Ai)
II.3.4 Attention
Trois événements indépendants 2 à 2 ne sont pas forcément indépendants.
II.3.5 Proposition
Si (A,B) sont indépendants, il en est de même de (Ac,B),(A,Bc),(Ac,Bc) . On peut généraliser ce résultat à n>2 événements indépendants (et mettre des complémentaires ou non où bon nous semble).
II.3.6 En pratique
L'énoncé supposera très souvent que certains événements sont indépendants. On pourra alors très facile calculer des probabilités d'intersection et de réunion (1 - P ) en passant au complémentaire, grâce à la remarque précédente.

III Variables aléatoires

III.1 Lois

III.1.1 Définition
  1. Une variable aléatoire discrète est une fonction X:ΩRX(Ω) (l'ensemble des valeurs de X ) est dénombrable ou fini.
  2. On impose en plus que l'ensemble X1({x}) est un événement (un élément de notre tribu) pour tout xX(Ω) .
  3. Si H est un ensemble de valeurs de X (on a donc HX(Ω) ), on note (XH) l'événement `` X prend l'une des valeurs dans H '', c'est à dire l'ensemble X1(H) (image réciproque par la fonction X de l'ensemble H ).
  4. Si x est l'une des valeurs que peut prendre X (ie. xX(Ω) ), on note (X=x) l'événement X1({x}) , c'est à dire l'événement `` X prend la valeur x ''
Le première chose à préciser sur une variable aléatoire (en théorie comme en pratique) est l'ensemble de ses valeurs
III.1.2 Théorème

Soit X une variable aléatoire discrète sur Ω . Notons {xn| nN}=X(Ω) l'ensemble de ses valeurs. Alors ((X=xn))nN est un système complet d'événements.
Preuve
  1. Si ij , et ωΩω(X=xi)(X=xj) signifie que X(ω)=xi et X(ω)=xj ce qui est absurde.
  2. Si ωΩ , notons xn=X(ω) . Alors ω(X=xn) .
Ces deux points prouvent que les événements (X=xn) sont deux à deux incompatibles et que leur réunion est Ω .
III.1.3 Exemple
Revenons à notre pile ou face. Cette fois la pièce est truquée et tombe sur pile avec un probabilité p]0,1[ . On note X le numéro du lancé ou le jeu se fini. Calculer pour n N{0} , P(X=n) ainsi que leur somme.
III.1.4 Définition
Soit X une variable aléatoire discrète. La loi de X est l'application PX:{X(Ω)[0,1]xP(X=x)
Avec les notations du théorème précédent, il s'agit de donner, P(X=xn) , pour tout nN .
III.1.5 Somme
D'après le théorème précédent, la loi de X vérifie n=0+P(X=xn)=1 .
Réciproquement, on admet que si (pn)nN est une suite de réels positifs telle que n=0+pn=1 , alors on peut trouver une probabilité P sur Ω et une variable aléatoire X telles que P(X=xn)=pn .

III.2 Loi usuelles

III.2.1 Répétitions
Considérons une répétition illimité de la même expérience aléatoire (par exemple on lance deux dés), et on s'intéresse à un résultat précis que l'on nomme succès (on considère donc une répétition d'expérience ''de Bernoulli'') qui apparaît avec une probabilité p]0,1[ . On suppose les expériences mutuellement indépendantes.
On note X le rang du premier succès. Donner la loi de X .
III.2.2 Définition

On dit qu'une variable aléatoire X suit la loi géométrique de paramètre p]0,1[ (on note XG(p) ) ssi kN{0} P(X=k)=p(1p)k1.
  • L'ensemble des valeurs de X est X(Ω)=N{0} .
  • On peut interpréter X comme donnant le rang d'apparition du premier succès lors de répétitions INDÉPENDANTES d'une expérience de probabilité de succès p .
III.2.3 Proposition

Soit X une variable aléatoire, XG(p) pour un p]0,1[ . Soient n,kN{0} . P(X>n+k|X>n)=P(X>k) .
On dit que la loi géométrique est sans mémoire.
Preuve
On a au niveau des événements, (X>n+k)(X>n)=(X>n+k) . Ainsi P(X>n+k|X>n)=P(X>n+k)P(X>n) .
Or P(X>n+k)=i=0+P(X=n+k+1+i)=i=0+p(1p)n+k+i=p(1p)n+k11(1p)=(1p)n+k .
De même P(X>n)=(1p)n et P(X>k)=(1p)k . Ce qui conclut.
Explication
Le fait de savoir que les n premières expériences ont échoués ne présage en rien du nombre d'échec ou de succès à venir.
III.2.4 Exemple
Soit λR
Trouver αR tel que la série nNαλnn! converge et que sa somme soit 1.
C'est un simple calcul de somme d'une série exponentielle, on trouve α=eλ .
III.2.5 Définition

Soit λ]0,+[ . On dit qu'une variable aléatoire X à valeurs dans N suit la loi de Poisson de paramètre λ (noté XP(λ) ) ssi kN P(X=k)=eλλkk!.
III.2.6 Cas d'utilisation
On peut utiliser cette loi pour approximer une loi binomiale de paramètre faible (on le verra plus loin), ou pour modéliser une expérience ou les valeurs de X ont de fortes chances d'être faible. Nous verrons l'interprétation de λ plus loin dans le chapitre.

III.3 Loi conjointe, indépendance

III.3.1 Définition

Soient X,Y deux variables aléatoires discrètes sur Ω . On note {xn| nN} et {ym| mN} les valeurs possibles de X et Y respectivement.
  1. (X,Y) est une variable aléatoire ω(X(ω),Y(ω)) .
  2. La loi conjointe du couple (X,Y) est la loi décrite par la donnée de P(X=xn,Y=ym) pour toutes les valeurs de n et m .
  3. Il s'agit de la loi de la variable discrète Z=(X,Y) .
  4. Les lois marginales de la loi conjointe de (X,Y) sont les lois de X et Y .
  5. Pour n0N fixé tel que P(X=xn0)0 , la loi conditionnelle de Y sachant (X=xn0) est la loi donnée par P(Y=ym|X=xn0)
Preuve
Il faut a priori justifier que Z=(X,Y) est une variable aléatoire.
Soit zZ(Ω) , z=(x,y)xX(Ω), yY(Ω) . Nous devons montrer que A=Z1(\ensz) est un événement.
Or ωAZ(ω)=zZ(ω)=(x,y)X(ω)=x et Y(ω)=y . Ainsi A=X1(\ensx)Y1(\ensy) est une intersection d'événements donc est un événements (car X,Y sont supposés être des variables aléatoires).
III.3.2 Calcul de lois
Notons pour (n,m)N2 , pn,m=P(X=xn,Y=ym) . On suppose donc la loi conjointe connue.
  1. Pour un nN fixé, m=0+pn,m=P(X=xn) car ((Y=ym))mN forment un système complet d'événements. (On retrouve la première loi marginale par somme). De même, pour un mN fixé, n=0+pn,m=P(Y=ym) .
  2. Alors n=0+m=0+pn,m=m=0+n=0+pn,m=1 .
  3. Pour n,m fixés, P(Y=ym|X=xn)=P(Y=ym,X=xn)P(X=xn)=pn,mk=0+pn,k .
III.3.3 Exemple
On lance une pièce qui tombe sur pile avec une probabilité p]0,1[ (et donc face avec une probabilité q=1p]0,1[ ). On note X le rang d'apparition du premier pile et Y le rang du second.
Donner la loi conjointe. Soient n,mN{0} .
  • Si nm alors P(X=n,Y=m)=0 .
  • Si 1n<m , P(X=n,Y=m)=P(Y=m|X=n)P(X=n)=p(1p)mn1×p(1p)n1=p2(1p)m2 .

Vérifions que la somme vaut 1.


m=1+n=1+P(X=n,Y=m)=m=2+n=1m1p(1p)mn1×p(1p)n1=m=2+(m1)p2(1p)m2=p2m=1+m(1p)m1

On re connaît la dérivée de f:x11x=n=0+xn évalué en x=1p .
Ainsi m=2+(m1)(1p)m2=1(1(1p))2=1p2 et tout est bien qui fini bien.
III.3.4 Retrouver une loi marginale
Ceci se fait toujours par calcul de somme. Reprenons l'exemple précédent. on connaît la loi de X qui est géométrique de paramètre p. Donnons la loi de Y .
  • Y est à valeurs dans N{0,1}={2,3,4,} .
  • Soit mN , m2 . On sait que ((X=n))ninN{0} est un système complet d'événements ( on a considéré toutes les valeurs envisageables pour X ). Ainsi P(Y=m)=n=1+P((Y=m) et (X=n))=n=1+P(Y=m,X=n) Or, pour les n tels que nm , P(Y=m,X=n)=0 et donc


    P(Y=m)=n=1m1P(Y=m,X=n)=n=1m1p2(1p)m2=(m1)p2(1p)m2

Autre méthode : on peut arriver à ce résultat par dénombrement.
En effet pour que le 2ème succès arrive au rang m , il faut que la succession des m premières expériences soit de la forme (?,,?,S) où S représente un succès et que parmi les m1 premières expériences, il y ait exactement un succès.
Il y a exactement m1 possibilité pour écrire les premières expériences sous cette forme : le 1er succès est au rang 1, ou (exclusif) le premier succès est au rang 2 ou ...
Par indépendance des expériences élémentaires, chaque manière d'écrire les m expérience se produit avec une probabilité p2(1p)m2 ( 2 succès et m2 échecs ). De plus, on a souligné le fait que la réunion est disjointe (les cas sont disjoints) et on obtient donc la probabilité totale par somme.
III.3.5 Définition

Soient X,Y deux variables aléatoires discrètes sur Ω . on dit qu'elles sont indépendantes ssi x,yX(Ω)×Y(Ω)P(X=x,Y=y)=P(X=x)P(Y=y) ie ssi les événements (X=x) et (Y=y) sont deux à deux indépendants pour toutes les valeurs possibles de x et y .
Lorsque X et Y sont indépendantes, on note XY
III.3.6 Exemple
Les variables aléatoires de l'exemple III.3.3 ne sont pas indépendantes. On a par exemple P(X=2,Y=2)=0P(X=2)P(Y=2)
III.3.7 Somme de deux lois de Poisson
A savoir refaire
Soient X,Y deux variables XP(λ) et YP(μ) , indépendantes. On note Z=X+Y . Calculer la loi de Z .
  • Premièrement, Z est à valeurs dans N , comme X et Y .
  • Pour nN , P(Z=n)=k=0nP(X=k,Y=nk)=k=0neλλkk!eμμnk(nk)!=eλμ1n!(λ+μ)n.
Ainsi ZP(λ+μ) .
III.3.8 Proposition
Soient X,Y deux variables indépendantes et GX(Ω),HY(Ω) . Alors P((X,Y)G×H)=P(XG)×P(YH).
Extension des notions de premières années
On admet que les résultats suivants sont encore vrais pour des variables aléatoires discrètes.
III.3.9 Proposition

Si X,Y sont des variables aléatoires discrètes indépendantes et si on peut calculer f(X) et g(Y) pour des fonctions f et g alors f(X) et g(Y) sont des variables aléatoires et sont indépendantes.
On peut résumer par : XYf(X)f(Y) .
Preuve
  • Montrons d'abord que H=f(X)=fX est une variable aléatoire. Soit yH(Ω) . Montrons que H1(\ensy) est un événement. Posons A=f1(\ensy)X(Ω) (car la composition est licite).
  • Alors H1(\ensy)=X1(A)=(XA) qui est bien un événement (par réunion).
III.3.10 Définition

Soit (Xn)nN des variables aléatoires discrètes sur Ω . On dit qu'elles sont indépendantes ssi pour kN{0} et i1,,ikN , x1Xi1(Ω),,xkXik(Ω) P(Xi1=x1 et  et Xik=xk)=j=1kP(Xij=xi).
Autrement dit, on peut calculer toute probabilité d'intersection finie par produit.
III.3.11 Avec des événements
La proposition III.3.8 s'étend au cas de n variables indépendantes.
III.3.12 A retenir
Comme pour les événements, on supposera souvent dans l'énoncé que des variables aléatoires sont indépendantes. On pourra alors calculer des probabilités d'intersection (et) par produit.

IV Moments d'une variable aléatoire


Dans cette partie, toutes les variables aléatoires sont supposées à valeurs réelles.

IV.1 Espérance, variance

Explication
La notion d'espérance s'étend de manière naturelle aux variables aléatoires discrète. Par contre l'existence de l'espérance n'est pas garantie a priori, vu qu'il s'agit de la convergence d'une série numérique.
IV.1.1 Définition

Soit X une variable aléatoire discrète à valeurs dans X(Ω)={xn| nN}R . On dit que X est d'espérance finie ssi xnP(X=xn) converge absolument .
Dans ce cas, on appelle espérance de X et on note E(X) le réel n=0+xnP(X=Xn) .
Explication
Comme pour le théorème sur le produit de Cauchy il nous faut ici supposer la convergence absolue. La raison est hors de notre programme : la valeur de la somme ne dépend pas de l'ordre dans lequel on calcule celle-ci. En particulier ici, on peut numéroter les éléments de X(Ω) comme bon nous semble sans changer l'espérance (encore heureux !). En pratique, nos variables aléatoires sont très souvent à valeurs dans N et l'ordre de sommation est naturel (mais pas imposé).
IV.1.2 Exemple
On peut définir une loi à valeurs dans N{0} par nN{0} P(X=n)=6π2n2 car la série converge et est de limite 1.
Dans ce cas X n'est pas d'espérance finie.
IV.1.3 Proposition
  1. Si XG(p) pour p]0,1[ alors X est d'espérance finie et E(X)=1p .
  2. Si XP(λ) pour λ>0 alors X est d'espérance finie et E(X)=λ .
Preuve
Il s'agit ici d'exemples de calculs d'espérance.
  1. La série numérique n1np(1p)n1 converge par comparaison de séries à termes positifs (car n(1p)n1=o+(1n2) ) donc converge absolument. De plus, n=1+np(1p)n1=p1(1(1p)2)=1p en dérivant terme à terme la série géométrique et en évaluant en 1p]1,1[ . Interprétation : Si la probabilité de succès élémentaire est p , on s'attend à faire en moyenne 1p essais avant d'obtenir un succès.
  2. La série n0neλλnn!=λeλn1λn1(n1)converge absolument par produit par une constante d'une série exponentielle et E(X)=λ . Ainsi le paramètre λ d'une loi de Poisson s'interprète comme son espérance (ou intuitivement, valeur moyenne).
IV.1.4 Proposition (Propriétés de l'espérance)

Soient X,Y deux variables aléatoires discrètes réelles sur Ω , d'espérances finies .
  1. Linéarité : soient λ,μR . λX+μY est d'espérance finie et E(λX+μY)=λE(X)+μE(Y) .
  2. Positivité : si X0 alors E(X)0 .
  3. Croissance : si ωΩ X(ω)Y(ω) (que l'on note XY ) alors E(X)E(Y) .
  4. Si X et Y sont indépendantes alors XY est d'espérance finie et E(XY)=E(X)E(Y) .
Preuve
  1. Admis. on peut appliquer le théorème de transfert à la VA (X,Y) et la fonction (x,y)x+y et utiliser le cours sur les séries absolument convergentes.
  2. Evident : une série à termes positifs convergente a une somme positive.
  3. Conséquence directe (et classique !) des deux propriétés précédentes.
  4. Admis.
IV.1.5 Exemple
  1. Ceci est tout à fait en accord avec notre calcul de la loi d'une somme de deux lois de Poisson indépendantes.
  2. Si X est d'espérance finie, alors Y=XE(X) est une variable centrée ie d'espérance nulle.
IV.1.6 Théorème (Théorème de transfert)

Soit X une variable aléatoire discrète et f une fonction définie sur X(Ω)={xn| nN} à valeurs réelles. f(X) est d'espérance finie ssi f(xn)P(X=xn) est absolument convergente.
Alors E(f(X))=n=0+f(xn)P(X=xn) . Ainsi l'espérance de f(X) est déterminée par la loi de X .
Preuve
Admis.

IV.2 Variance

IV.2.1 Définition-proposition

Soit X une variable aléatoire discrète. Si X2 est d'espérance finie alors X aussi. Dans ce cas :
  1. on appelle variance de X le nombre réel positif V(X)=E((XE(X))2)=E(X2)E(X)2 .
  2. on appelle écart-type de X le nombre réel positif σ(X)=V(X) .
Si σ(X)=1 , on dit que X est réduite.
Preuve
On suppose X2 d'espérance finie ie nNxn2P(X=xn)converge absolument. Montrons que nN|xn|P(X=xn) converge.
Remarquons que pour nN , |xn|P(X=xn){|xn|2P(X=xn) si |xn|1P(X=xn)sinon .
Dans tous les cas |xn|P(X=xn)(|xn|2+1)P(X=xn) qui est la somme de deux TG de séries convergentes et positives. Par comparaison de séries à termes positifs, X est d'espérance finie.
IV.2.2 Proposition
  1. Si XG(p) pour p]0,1[ alors X est de variance finie et V(X)=1p21p .
  2. Si XP(λ) pour λ>0 alors X est de variance finie et V(X)=λ .
Preuve
Il s'agit ici d'exemples de calculs de variance.
  1. Soit XG(p) pour un p]0,1[ . La série n1n2p(1p)n1 converge par comparaison de séries à termes positifs car n2(1p)n1=o+n2 . Donc X possède une variance Posons f:x11x=n=0+xn (sur ]1,1[ ) et x]1,1[ . Alors f(x)=n=1+nxn1=1(1x)2 et f(x)=n=2+n(n1)xn2=2(1x)3 . Ainsi xf(x)=n=1+n(n1)xn1 (le premier terme est nul) et n=1+n2xn1=f(x)+xf(x)=1(1x)2+2x(1x)3 . On a donc E(X2)=p(1p2+2(1p)p3)=21p21p . Finalement V(X)=1p21p=1pp2
  2. Soit XP(λ) pour un λ>0 . La série n0n2eλλnn! converge (d'Alembert, ou produit par une puissance dans une série entière, ce qui ne modifie pas le rayon de convergence). De plus, n=0+n2eλλnn!=λeλn=0+(n+1)λnn!=λeλ(λeλ+eλ) . Ainsi V(X)=λ2+λλ2=λ .
IV.2.3 Proposition
Soit X une variable aléatoire réelle de variance finie et a,bR .
Alors aX+b est de variance finie et V(aX+b)=a2V(X) .
Preuve
Montrons que aX+b est de variance finie c'est à dire que (aX+b)2 est d'espérance finie.
Or (aX+b)2=a2X2+2abX+ab est bien d'espérance finie par combinaison linéaire.
On utilise V(aX+b)=E((aX+b)2)(E(aX+b))2=E(a2X2+2abX+b2)(aE(X)+b)2=a2E(X2)a2(E(X))2=a2V(X) .

IV.3 Covariance

IV.3.1 Définition-proposition

Soient X,Y deux variables aléatoires discrètes. Si X et Y admettent un moment d'ordre 2 (ie. admettent une variance finie) alors la variable aléatoire (XE(X))(YE(Y)) est d'espérance finie.
Dans ce cas on appelle covariance de X et Y le réel cov(X,Y)=E((XE(X))(YE(Y))) .
Preuve
Il s'agit de montrer que XY est d'espérance finie (les autres VA le sont facilement quand on développe).
Or |XY|X2+Y2 . Notons Z=(X,Y) , f:(x,y)xy et g:(x,y)x2+y2 . On sait que g(Z) est d'espérance finie d'après le théorème de transfert. En notant Z(Ω)={zn;nN} , la série g(zn)P(Z=zn) converge et donc, par comparaison de série à termes positifs, f(zn)P(Z=zn)converge absolument car |f(zn)|g(zn) .
IV.3.2 Remarque
On a cov(X,X)=V(X) .
IV.3.3 Proposition
Dans les conditions de la définition précédente:
  1. cov(X,Y)=E(XY)E(X)E(Y) .
  2. SiX et Y sont indépendantes alorscov(X,Y)=0 .
  3. la covariance est bilinéaire et symétrique.
Preuve
Simple utilisation de la linéarité de l'espérance, en plus de la propriété E(a)=a quand a est une constante.
Le deuxième point est une conséquence directe d'un théorème du chapitre sur les probabilités.
La symétrie est évidente, la bilinéarité conséquence simple de la linéarité de l'espérance. Notons qu'une combinaison linéaire de VA de variances finies est encore de variance finie (c'est une conséquence de la partie proposition de la définition de la covariance).
IV.3.4 Proposition

Soit X,Y deux variables aléatoires admettant une variance finie. Alors X+Y est de variance finie et V(X+Y)=V(X)+V(Y)+2cov(X,Y)
Preuve
En effet, V(X+Y)=E((X+Y)2)(E(X+Y))2=E(X2)+2E(XY)+E(Y2)E(X)22E(X)E(Y)E(Y2) .
IV.3.5 Exemple
Ainsi pour des variables indépendantes, V(X+Y)=V(X)+V(Y) et plus généralement la variance d'une somme de variables mutuellement indépendantes est la somme des variances.
Rappelons une application importante, posons (Xi)i1,n des variables aléatoires mutuellement indépendante de même loi de Bernoulli de paramètre p]0,1[ .
Alors S=i=1nXi suit une loi binomiale de paramètres n et p .
Or V(X1)=E(X12)E(X1)2=pp2=p(1p) et donc V(S)=np(1p) .
Finissons le rappel par E(S)=nE(X0)=np par linéarité de l'espérance.
IV.3.6 Théorème (Cauchy-Schwartz)

On a |cov(X,Y)|V(X)V(Y)
Preuve
Soit tR . Alors V(X+tY)==t2V(Y)+2tcov(X,Y)+V(X) qui est de degré 2 (si V(Y)0 ) et positif. Le discriminant est donc négatif.
IV.3.7 Définition

Soient X,Y deux variables aléatoires de variance finie et non nulle. Le coefficient de corrélation de X et Y est cor(X,Y)=cov(X,Y)V(X)V(Y)=cov(X,Y)σ(X)σ(Y)[1,1]
IV.3.8 Interprétation
L'étude du cas d'égalité dans l'inégalité de Cauchy-Schwartz précédente, permet de montrer que cor(X,Y)=±1 ssi Y=aX+b pour a,b des réels. De plus, si X et Y sont indépendantes, cor(X,Y)=0 . On peut ``donc'' interpréter ce coefficient comme une mesure du lien (autrement appelé corrélation) qui existe entre X et Y .

V Fonctions et probabilités

V.1 Fonction de répartition

V.1.1 Définition

Soit X une variable aléatoire discrète. On appelle fonction de répartition de X et on note FX la fonction FX:{RRxP(Xx)
V.1.2 Exemple
Tracer un partie de la courbe représentative de FXX suit une loi géométrique de paramètre 12 .
V.1.3 Remarque
Imaginons que l'on connaisse la fonction de répartition FX d'une VA X mais pas sa loi. Notons X(Ω)={xn| nN} l'ensemble des valeurs de X où on a ordonnée les xn , ie la suite (xn) est croissante.
Alors P(X=x0)=FX(x0) et pour tout n0 , P(X=xn)=FX(xn)FX(xn1)
V.1.4 Proposition

Avec les notations de la définition, on a :
  1. FX est croissante sur R .
  2. limxFX(x)=0 .
  3. limx+FX(x)=1 .
Preuve
Il s'agit d'utiliser les propriétés de P suivantes : croissance, limite de la probabilité d'une suite décroissante d'événements et limite de la probabilité d'une suite croissante d'événements.
V.1.5 Exemple
En pratique, il est parfois plus pratique de calculer des probabilités de la forme P(Xn) , ce qui revient à calculer la fonction de répartition sans le dire.
Soient par exemple X,Y deux VA indépendantes de loi géométrique de paramètre p]0,1[ et Z=min(X,Y) . Calculer 1FZ
Pour nN{0} , P(Z>n)=P((X>n)(Y>n))=P(X>n)P(Y>n)=((1p)2)n .
On en déduit facilement que ZG(2pp2) .
V.1.6 Proposition
Soit X une variable aléatoire à valeurs dans N . X est d'espérance finie ssi P(Xn) converge et dans ce cas E(X)=n=1+P(Xn)
Preuve
Remarquons d'abord que pour nN on a P(X=n)=P(Xn)P(Xn+1) .
Soit maintenant NN . On a


n=0NnP(X=n)=n=1NnP(X=n)=n=1Nn(P(Xn)P(Xn+1))=n=1NnP(Xn)n=1NnP(Xn+1)=n=1NnP(Xn)n=2N+1(n1)P(Xn)=n=1NP(Xn)NP(XN+1) en ajoutant un terme nul


De plus, P(XN+1)=n=N+1+P(X=n) .
Ainsi NP(XN+1)=n=N+1NP(X=n)
  • Supposons que X est d'espérance finie. On a alors 0NP(XN+1)n=N+1+nP(X=n) et le majorant trouvé est un reste de série convergente donc tend vers 0 lorsque N+ . Par encadrement puis par somme P(Xn) converge et E(X)=n=1+P(Xn)
  • Réciproquement, supposons que P(Xn) converge. Alors, par majoration de série à termes positifs, X est d'espérance finie et le calcul précédent conclut.

V.2 Fonction génératrice

V.2.1 Une série entière
Soit X une VA à valeurs dans N (son ensemble de valeurs est un sous-ensemble de N ).
Considérons la série entière P(X=n)tn . Comme cette sérieconverge absolument pour t=±1 , son rayon de convergence vaut au moins 1 .
V.2.2 Définition

Soit X une variable aléatoire à valeurs dans N . La fonction génératrice (ou série génératrice) de X est la fonction GX:tn=0+P(X=n)tnGX est définie au moins sur le segment [1,1] , C sur ]1,1[ et GX(1)=1 .
V.2.3 Remarque
Par unicité des coefficients d'une série entière de rayon de convergence non nul, la loi de X est entièrement déterminée par la fonction GX .
V.2.4 Valeurs manquantes
On convient de poser P(X=n)=0 pour tous les n qui ne sont pas des valeurs de X . En particulier, pour une variable aléatoire sur un univers fini GX est polynomiale !
V.2.5 Exemple
Calculons les fonctions génératrices pour les lois usuelles.
  1. Soit XB(p) (Bernoulli, p]0,1[ ). Alors GX:t(1p)t0+pt1=1p+pt .
  2. Soit XB(n,p) (binomiale, nN{0} , p]0,1[ ). Alors GX:tk=0n(nk)pk(1p)nktk=(1p+pt)n .
  3. Soit XG(p) (où p]0,1[ ). La série considérée est n1p(1p)n1tn=ptn0((1p)t)n . Cette série géométrique converge ssi |(1p)t|<1 et donc t]11p,11p[ GX(t)=pt1(1p)t. Remarquons que le rayon de convergence de la série est 11p>1 .
  4. Soit XP(λ) ( λ>0 ). Pour t]1,1[ , GX(t)=n=0+eλλnn!tn=eλeλt=eλ(t1) .
V.2.6 Exercice
Déterminer la fonction génératrice d'une loi uniforme sur 1,n .
V.2.7 Interprétation en tant qu'espérance
Pour une variable aléatoire X à valeurs dans N ( on a x0=0,x1=1 quitte à considérer trop de valeurs pour X qui donneront des probabilités nulles ) et t[1,1] on a GX(t)=E(tX)
V.2.8 Théorème

Si X et Y sont deux variables aléatoires à valeurs dans N et indépendantes , notons RX et RY les rayons de convergence de GX et GY respectivement. Posons également r=min(RX,RY)
Alors GX+Y est de rayon Rr et t]r,r[ GX+Y(t)=GX(t)GY(t)
Preuve
La série produit (de Cauchy) GXGY est de rayon Rmin(RX,RY) et pour t]r,r[GX(t)GY(t)=n=0+cntncn=k=0nP(X=k)P(Y=nk)=k=0nP((X=k)(Y=nk))=P(X+Y=n) .
Deuxième méthode, qui s'applique si on connaît les propriétés de l'espérance.
Pour t]0,r[ , on pose ft:xtx . Alors f(X) et f(Y) sont indépendantes et donc E(tX)E(tY)=E(tXtY)=E(tX+Y) . Ainsi tR et on a bien GX+Y(t)=GX(t)GY(t) .
V.2.9 Exemple
On peut utiliser ce théorème pour calculer la loi d'une somme de variables indépendantes.
  1. Soient λ,μ>0 et XP(λ),YXP(μ) . Alors, pour tout tR , GX(t)GX(Y)=eλ(t1)eμ(t1)=e(λ+μ)(t1)=GX+Y(t) . Ainsi X+YP(λ+μ) (car la fonction génératrice détermine la loi).
  2. Lançons deux dés équilibrés à 6 faces et notons X,Y les résultats obtenus pour le premier et le second dé respectivement. Donner la loi de X+Y (la somme des deux dés). Ici les lois prennent un nombre fini de valeurs et donc les fonctions génératrices sont polynomiales. Pour tR , GX(t)=GY(t)=16tk=05tk . De plus X et Y sont indépendantes. Ainsi GX+Y(t)=t236(k=05tk)2=t236(1+2t+3t2+4t3+5t4+6t5+5t6+4t7+3t8+2t9+t10) . On obtient
    k23456789101112
    P(X=k)136236336436536636536436336236136
V.2.10 Théorème

Soit X une variable aléatoire à valeurs dans N et GX sa fonction génératrice.
  1. X est d'espérance finie ssi GX est dérivable en 1 et alors E(X)=GX(1) .
  2. X est de variance finie ssi GX est deux fois dérivable en 1 et alors V(X)=GX(1)+GX(1)(GX(1))2.
V.2.11 Retrouver les formules
Tout d'abord, on a E(X)=n=1+nP(X=n) et E(X2)=n=1+n2P(X=n) (théorème de transfert).
De plus, on supposant la dérivabilité terme à terme, GX(t)=n=1+nP(X=n)tn1 donc on a bien GX(1)=E(X) .
De plus, GX(t)=n=2+n(n1)P(X=n)tn1 donc GX(1)=E(X2)E(X) .
V.2.12 Exemple
Retrouvons l'espérance et la variance des lois géométriques et de Poisson.
  1. Soit XG(p) (où p]0,1[ ). GX des DSE sur ]11p,11p[ donc est deux fois dérivable en 1 . De plus, GX(t)=pt1(1p)t donc GX(t)=p(1(1p)t)+pt×(1p)(1(1p)t)2=p(1(1p)t)2 donc E(X)=pp2=1p . De même G(t)=p×(2)×((1p))×(1(1p)t)3 donc G(1)=2p(1p)p3=2(1p)p2=E(X2)E(X) . Ainsi V(X)=E(X2)(E(X))2=2(1p)p2+1p1p2=1pp2 .
  2. Soit XP(λ) ( λ>0 ). Cette fois GX est DSE sur R donc dérivable deux fois en 1. De plus GX(t)=λeλ(t1) et GX(1)=λ2eλ(t1) . Ainsi E(X)=GX(1)=λ et V(X)=λ2+λλ2=λ .

VI Etude asymptotique

VI.1 Interprétation de la loi de Poisson

VI.1.1 Proposition

Soit λ>0 .
On considère une suite (Xn)n1 de variables aléatoires telles que XnB(n,pn)pn+λn .
Pour kN fixé, on a limn+P(Xn=k)=eλλkk! .
Preuve
On cherche à estimer la limite de (nk)pnk(1pn)nk .
Or (nk)=n!k!(nk)!=1k!i=0k1(ni)n+1k!nk . (par produit d'un nombre fixé d'équivalents)
De plus, pnk+λknk (encore une fois, k est fixé).
De plus, (1pn)nk+(1pn)n car (1pn)kn+1 .
Comme (1pn)n=enln(1pn)=en(pn+o+(pn))=eλ+o+(1) (avec 2 o(1) obtenus en remplaçant pn par son équivalent dans le o ). Ainsi (1pn)n+eλ0 (et donc on peut transformer cette limite en équivalent).
Il n'y a plus qu'à effectuer le produit de nos équivalents..
VI.1.2 En pratique
On peut utiliser une loi de Poisson pour approximer une loi binomiale de paramètre (n,p) dans le cas où λ=np n'est ``pas trop grand''.

VI.2 Loi des grands nombres

VI.2.1 Théorème (Inégalité de Markov)

Soit X une variable aléatoire réelle à valeurs positives, d'espérance finie. a>0 P(Xa)E(X)a.
Preuve
Notons X(Ω)={xn;nN}
On a aP(Xa)=axnaP(X=xn)xnaaP(X=xn) . Comme de plus les valeurs de X sont positives aP(Xa)n=0+xnP(X=xn)=E(X) et il suffit de diviser par a>0 .
Explication
L'idée ``grossière'' derrière ce théorème est que si l'espérance (la valeur moyenne) de X vaut m , alors X ne prend pas des valeurs trop grande par rapport à m , ou alors avec une probabilité très faible.
VI.2.2 Théorème (Inégalité de Bienaymé-Tchebychev)

Soit X une variable aléatoire de variance finie.
ϵ>0 P(|XE(X)|>ϵ)V(X)ϵ2.
Preuve
(|XE(X)|>ϵ)=((XE(X))2<ϵ2) . Il ne reste plus qu'à appliquer l'inégalité de Markov à (XE(X))2 qui est d'espérance finie et positive.
Explication
On quantifie cette fois l'écart entre X et sa "moyenne". La variance apparaît naturellement.
VI.2.3 Exemple
On pose Sn la moyenne arithmétique de n variables de loi de Bernoulli indépendantes de paramètre p. S=1ni=1nXi .
Exemple pratique : on dépouille une urne contenant n bulletins dans une élection à deux candidats. (Xi=1) est l'événement : le i -ème bulletin est pour le candidat A . Ici l'indépendance des variables n'est sûrement pas respecté dans la pratique. Tant pis, poursuivons.
Le but est d'estimer p , la proportion de votant ayant choisi le candidat A . Cette probabilité (théorique) est inconnue au moment de l'expérience.
Alors E(S)=p et V(S)=p(1p)n .
S représente la proportion votes après n dépouillements indépendants. Alors P(|Sp|>ϵ)p(p1)nϵ2 .
On veut P(|Sp|>ϵ)5% . Comment choisir ϵ ? Il faut p(p1)nϵ25100 soit encore ϵ220p(1p)n .
Or p(1p)14 (étape obligatoire, on ne connaît pas encore p ). On a donc ϵ25n .
Ainsi, si on veut une approximation de p à 1\% près, on prend 110051n soit encore n5.104 .
Attention, on à juste le résultat : la probabilité pour que la fréquence théorique s'écarte de plus de 1\% de la fréquence observée est 5100
VI.2.4 Théorème (Loi faible des grands nombres)

Soit (Xn)n1 une suite de variables aléatoires deux à deux indépendantes et de même loi, admettant un moment d'ordre 2.
On pose, pour n1 , Sn=k=1nXk et on note m=E(X1) l'espérance commune aux Xk . η>0 P(|Snnm|η)n+0. Pour un η>0 fixé, la limite est nulle.
Explication
Ce théorème est la formalisation mathématique d'une idée naturelle.
Je répète n fois la même expérience aléatoire de Bernoulli (paramètre p ) sans connaître a priori le paramètre p (on cherche à estimer une fréquence de manière empirique, par exemple pour réaliser un sondage...)
Alors la fréquence moyenne de succès converge vers le paramètre théorique p .
Résumé sur les lois usuelles
NomNotationValeursLoiFonctions génératriceEspéranceVariance
BernoulliB(p){0,1}P(X=1)=p,P(X=0)=1pGX(t)=1p+pt,tRpp(1p)
BinomialeB(n,p)0,nP(X=k)=(nk)pk(1p)nkGX(t)=(1p+pt)n,tRnpnp(1p)
GéométriqueG(p)N{0}P(X=k)=p(1p)k1GX(t)=pt1(1p)t,t]11p,11p[1p1pp2
PoissonP(λ),λ>0NP(X=k)=eλλkk!GX(t)=eλ(t1),tRλλ