Type a search term to find related articles by LIMS subject matter experts gathered from the most trusted and dynamic collaboration tools in the laboratory informatics industry.
Type |
Algorithme, spécialité (d), discipline (d), méthode d'apprentissage automatique (d) |
---|
L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement[2]. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Les exemples annotés constituent une base d'apprentissage, et la fonction de prédiction apprise peut aussi être appelée « hypothèse » ou « modèle ». On suppose cette base d'apprentissage représentative d'une population d'échantillons plus large et le but des méthodes d'apprentissage supervisé est de bien généraliser, c'est-à-dire d'apprendre une fonction qui fasse des prédictions correctes sur des données non présentes dans l'ensemble d'apprentissage[3].
Soit , un espace probabilisé.
Soit deux espaces mesurables. On peut définir une base de données d'apprentissage (ou ensemble d'apprentissage) comme un ensemble de couples entrée-sortie où chaque et sont des réalisations respectives des variables aléatoires et . Les couples de la suite sont indépendants et identiquement distribués suivant la loi d'un couple à valeurs dans . On rappelle que cette loi est caractérisée par une mesure de probabilité définie pour tout évènement par
Par exemple suit une loi uniforme et où est un bruit centré. Dans ce cas, la méthode d'apprentissage supervisé utilise cette base d'apprentissage pour déterminer une estimation de f notée g et appelée indistinctement fonction de prédiction, hypothèse ou modèle qui à une nouvelle entrée x associe une sortie g(x). Le but d'un algorithme d'apprentissage supervisé est donc de généraliser pour des entrées inconnues ce qu'il a pu « apprendre » grâce aux données déjà annotées par des experts, ceci de façon « raisonnable ». On dit que la fonction de prédiction apprise doit avoir de bonnes garanties en généralisation.
Plus généralement[4], l'objectif de l'apprentissage supervisé est d'apprendre une fonction qui « minimise l'écart entre les variables aléatoires et ». Pour définir cet écart, nous introduisons une fonction de perte qui quantifie la distance entre une prédiction du modèle et une sortie attendue . À partir de cette fonction, nous pouvons définir le risque statistique d'un modèle . Il est noté et est défini par :
En pratique, on n'a jamais accès directement à , en revanche il est possible de l'estimer à partir du jeu de données en utilisant la mesure empirique définie pour tout par .
Dès lors, un algorithme d'apprentissage supervisé mettra en œuvre des algorithmes d'optimisation afin de trouver une fonction qui minimise le risque empirique . Il faut noter que n'est rien d'autre que la moyenne des écart (au sens de ) entre les prédictions du modèle et les sorties attendues.
On distingue trois types de problèmes solubles avec une méthode d'apprentissage automatique supervisée[5] :
Une bonne estimation de vérifierait . On estimerait donc par son espérance conditionnelle par rapport à . Le théorème[7] suivant montre l'intérêt d'utiliser la fonction de perte quadratique dans le cas d'une régression.
Minimisation du coût quadratique — Supposons . On se munit de la fonction de perte quadratique définie pour tout par . On suppose également , avec la mesure de Lebesgue sur . Alors, la fonction qui minimise le risque statistique associé à vérifie .