Le théorème de Bayes est une méthode de calcul de la probabilité conditionnelle. Il peut être utilisé en statistiques et également en intelligence artificielle, notamment en machine learning.
Pour les scientifiques, la probabilité qu’un événement se produise s’explique par une formule de calcul et non par l’intuition. C’est aussi le cas pour les modèles d’intelligence artificielle qui tentent d’imiter l’intelligence humaine, mais qui sont avant tout des programmes informatiques. Aujourd’hui, nous vous emmenons à la découverte du théorème de Bayes et de son utilisation en IA.
En quoi consiste le théorème de Bayes ?
En termes simples, le théorème de Bayes, aussi appelé la loi ou la règle de Bayes, est une méthode de calcul de la probabilité conditionnelle. Rappelons avant tout qu’il existe trois types de probabilités : la probabilité marginale, la probabilité conjointe et la probabilité conditionnelle. La probabilité marginale désigne la probabilité d’un événement sans tenir compte d’autres variables aléatoires tandis que la probabilité conjointe est la probabilité de deux événements simultanés. La probabilité conditionnelle, quant à elle, est la probabilité de l’événement étant donné l’occurrence d’un autre événement. Elle s’obtient en divisant la probabilité conjointe par la probabilité que deux événements se produisent.
La probabilité conditionnelle selon Bayes
Étant donné les événements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B en tenant compte des probabilités de A, de B ainsi que de B sachant A.
En d’autres termes, pour calculer la probabilité conditionnelle avec cette règle il faut commencer par déterminer que l’événement B soit vrai en supposant que l’événement A le soit. Ensuite, il faut déterminer la probabilité que A soit vrai, puis multiplier les deux probabilités. Enfin, il faut diviser par la probabilité que l’événement B soit vrai. Pour vous donner une image plus claire, la formule du théorème de Bayes peut se présenter comme suit : P(A|B) = P(B|A)*P(A) / P(B).
Interprétation du théorème de Bayes
Pour mieux comprendre le concept, voyons les terminologies du théorème de Bayes. La probabilité P(A|B) et connue sous le nom de probabilité à posteriori. Elle désigne la probabilité de l’événement A tenant compte d’une preuve, ici la probabilité de l’événement B.
La probabilité P(A), dite probabilité antérieure, désigne la probabilité de l’événement A avant de considérer la preuve. P(B|A) est tout simplement appelée probabilité. Enfin, la probabilité P(B) est la probabilité marginale d’une preuve, c’est-à-dire qui ne tient compte d’aucun autre événement.
Par conséquent, la probabilité à postériori est égale à la probabilité multipliée par la probabilité antérieure divisée par la probabilité marginale (preuve).
En somme, le théorème de Bayes calcule la probabilité qu’un événement se produise à partir d’un autre événement et les deux événements doivent être interdépendants. Autrement dit, il permet de calculer la probabilité d’un événement en tenant compte d’informations connues et de nouvelles informations.
Exemple pratique
Pour vous donner un exemple simple, supposons que nous voulons calculer la probabilité qu’il y ait un feu étant donné la présence d’une fumée.
Voici comment ça se présente : la probabilité à priori correspond à P(feu|fumée). La preuve est donc la présence de fumée ou P(fumée). Pour atteindre notre objectif, nous devons d’abord déterminer la probabilité que la fumée soit produite par le feu, c’est-à-dire la probabilité P(fumée|feu).
Ensuite, nous devons déterminer la probabilité qu’il y ait le feu et la multiplier avec le résultat précédent : P(fumée|feu) * P(feu). Enfin, nous divisons par la preuve ou P(fumée).
L’utilisation du théorème de Bayes en IA
Le théorème de Bayes est une règle couramment utilisée en termes d’intelligence artificielle et notamment de machine learning.
La modélisation des hypothèses
Un algorithme ML permet d’identifier les relations qui existent entre les données. Entre autres, un modèle de machine learning peut être considéré comme une hypothèse sur les relations entre les données. Maintenant, le théorème de Bayes permet de calculer la probabilité d’une relation entre les données (D) et une hypothèse (h). Nous avons donc la formule suivante : P(h|D) = P(D|h) * P(h) / P(D).
Le théorème de Bayes dans le problème de classification
Un autre problème du machine learning consiste à la modélisation prédictive pour la classification. Pour faire simple, il s’agit de calculer la probabilité conditionnelle d’une étiquette de classe étant donné un échantillon de données. Ainsi nous obtenons : P(classe|données) = P(données|classe) * P(classe) / P(données).
La classification naïve bayésienne
Un algorithme de classification naïve bayésienne vise à simplifier le calcul de la probabilité conditionnelle. Rappelons que selon le théorème de Bayes, toutes les variables sont interdépendantes. Cette méthode part du principe que chaque variable est indépendante des autres. De ce fait, la probabilité de chaque variable est calculée séparément, même sans tenir compte des données. La classification naïve bayésienne est généralement utilisée pour la classification de données binaires et multiclasses.
Par ailleurs, il existe encore des variantes de cet algorithme. Le modèle bayésien naïf multinomial permet d’interpréter la fréquence de mots, ce qui en fait un outil idéal pour la classification de documents.
Le modèle de Bernoulli utilise des données de types booléens. Autrement dit, la valeur prédite d’une classe sera binaire (oui ou non). Sur le plan pratique, cela signifie que cet algorithme de classification permet de déterminer si un mot est présent ou non dans un document.
Enfin, le classificateur de Bayes naïf gaussien suit la distribution gaussienne pour prendre en charge les données continues.
La classification optimale de Bayes
Le théorème de Bayes est, comme nous l’avons dit, une méthode de calcul de probabilité. Dans ce cadre, la classification optimale consiste à effectuer la prédiction la plus probable pour un nouvel exemple étant donné les données d’apprentissage. Comme son nom l’indique, il s’agit du modèle qui présente un taux d’erreur minimale
- Partager l'article :