Type a search term to find related articles by LIMS subject matter experts gathered from the most trusted and dynamic collaboration tools in the laboratory informatics industry.
Un algorithme de tri est, en informatique ou en mathématiques, un algorithme qui permet d'organiser une collection d'objets selon une relation d'ordre déterminée. Les objets à trier sont des éléments d'un ensemble muni d'un ordre total. Il est par exemple fréquent de trier des entiers selon la relation d'ordre usuelle « est inférieur ou égal à ». Les algorithmes de tri sont utilisés dans de très nombreuses situations. Ils sont en particulier utiles à de nombreux algorithmes plus complexes dont certains algorithmes de recherche, comme la recherche dichotomique. Ils peuvent également servir pour mettre des données sous forme canonique ou les rendre plus lisibles pour l'utilisateur.
La collection à trier est souvent donnée sous forme de tableau, afin de permettre l'accès direct aux différents éléments de la collection, ou sous forme de liste, ce qui peut se révéler être plus adapté à certains algorithmes et à l'usage de la programmation fonctionnelle.
Bon nombre d'algorithmes de tri procèdent par comparaisons successives, et peuvent donc être définis indépendamment de l'ensemble auquel appartiennent les éléments et de la relation d’ordre associée. Un même algorithme peut par exemple être utilisé pour trier des réels selon la relation d'ordre usuelle « est inférieur ou égal à » et des chaînes de caractères selon l'ordre lexicographique. Ces algorithmes se prêtent naturellement à une implémentation polymorphe.
Les algorithmes de tri sont souvent étudiés dans les cours d'algorithmique pour introduire des notions comme la complexité algorithmique ou la terminaison.
La classification des algorithmes de tri est très importante, car elle permet de choisir l’algorithme le plus adapté au problème traité, tout en tenant compte des contraintes imposées par celui-ci. Les principales caractéristiques qui permettent de différencier les algorithmes de tri, outre leur principe de fonctionnement, sont la complexité temporelle, la complexité spatiale et le caractère stable.
On distingue les algorithmes procédant par comparaisons successives entre éléments, dits « tris par comparaisons », des algorithmes plus spécialisés faisant des hypothèses restrictives sur la structure des données à trier (par exemple, le tri par comptage, applicable uniquement si les données sont prises dans un ensemble borné connu à l'avance).
Les algorithmes de tri par comparaison lisent les entrées uniquement au moyen d'une fonction de comparaison binaire ou ternaire (lorsque le cas d'égalité est traité différemment). Il existe encore différents principes de fonctionnement au sein de cette classe : certains algorithmes de tri par comparaison procèdent par insertions successives, d'autres par fusions, d'autres encore par sélection.
En l'absence de précisions, on entend habituellement par « algorithme de tri » un algorithme de tri procédant par comparaisons.
La complexité en temps est souvent notée et est exprimée comme une fonction du nombre d'éléments à trier à l'aide des notations de Landau et .
Certains algorithmes de tri simples ont une complexité en temps quadratique, i.e. , tandis que d'autres, plus élaborés, ont une complexité quasi linéaire : .
La complexité temporelle en moyenne d’un algorithme basé sur une fonction de comparaison ne peut pas être meilleure que . Les tris qui ne demandent que comparaisons en moyenne sont par conséquent dits optimaux. Ce résultat constitue une borne inférieure asymptotique, mais on montre également que le nombre exact de comparaisons nécessaires est minoré par .
Pour certains types de données (entiers, chaînes de caractères de taille bornée), il existe cependant des algorithmes plus efficaces au niveau du temps d'exécution, comme le tri comptage ou le tri par base. Ces algorithmes n'utilisent pas la comparaison entre éléments (la borne n·log(n) ne s'applique donc pas pour eux) mais nécessitent des hypothèses sur les objets à trier. Par exemple, le tri comptage et le tri par base s'appliquent à des entiers que l'on sait appartenir à l'ensemble [1, m] avec comme hypothèse supplémentaire pour le tri par base que m soit une puissance de 2 (c’est-à-dire de la forme 2k).
Un tri est dit en place s'il n'utilise qu'un nombre très limité de variables et qu’il modifie directement la structure qu’il est en train de trier. Ceci nécessite l’utilisation d'une structure de donnée adaptée (un tableau par exemple). Ce caractère peut être très important si on ne dispose pas de beaucoup de mémoire.
Toutefois, on ne déplace pas, en général, les données elles-mêmes, mais on modifie seulement des références (ou pointeurs) vers ces dernières.
Un tri est dit stable s'il préserve l’ordonnancement initial des éléments que l'ordre considère comme égaux. Pour définir cette notion, il est nécessaire que la collection à trier soit ordonnancée d'une certaine manière (ce qui est souvent le cas pour beaucoup de structures de données, par exemple pour les listes ou les tableaux).
Définissons la relation d'ordre définie sur les couples d'entiers par ssi , qui permet de trier deux couples selon leur première valeur.
Soit une liste de couples d'entiers que l'on souhaite trier selon la relation préalablement définie.
Puisque et sont égaux pour la relation , appeler un algorithme de tri avec en entrée peut mener à deux sorties différentes :
et sont toutes les deux triées selon , mais seule conserve l'ordre relatif. Dans , apparaît avant , d'où un algorithme de tri qui aurait pris en entrée et renvoyé en sortie serait instable.
Les algorithmes de tri instables peuvent être retravaillés spécifiquement afin de les rendre stables, cependant cela peut être aux dépens de la rapidité et/ou peut nécessiter un espace mémoire supplémentaire.
Parmi les algorithmes listés plus bas, les tris stables sont : le tri à bulles, le tri par insertion et le tri fusion. Les autres algorithmes nécessitent mémoire supplémentaire pour stocker l'ordre initial des éléments.
Un tri interne s'effectue entièrement en mémoire centrale (RAM) tandis qu'un tri externe utilise des fichiers sur une mémoire de masse pour trier des volumes trop importants pour pouvoir tenir en mémoire centrale[1]. Certains types de tris, comme le tri fusion ou les tris par distribution, s'adaptent facilement à l'utilisation de mémoire externe. D'autres algorithmes, à l'inverse, accèdent aux données de telle sorte qu'ils ne se prêtent pas à cet usage car cela nécessiterait d'effectuer constamment des lectures/écritures entre les mémoires principale et externe.
Certains algorithmes permettent d'exploiter les capacités multitâches de la machine[2]. Notons également que certains algorithmes, notamment ceux qui fonctionnent par insertion, peuvent être lancés sans connaître l'intégralité des données à trier ; on peut alors trier et produire les données à trier en parallèle.
Le tableau ci-dessous permet de comparer différents algorithmes de tri procédant par comparaisons. y représente le nombre d'éléments à trier. Toutes les complexités doivent être interprétées à l'aide d'un grand O de Landau. Il est supposé que les opérations élémentaires comme les comparaisons et les échanges peuvent être effectués en temps constant.
Nom | Cas optimal | Cas moyen | Pire des cas | Complexité spatiale | Stable |
---|---|---|---|---|---|
Tri rapide | en moyenne, dans le pire des cas ; variante de Sedgewick : dans le pire des cas |
Non | |||
Tri fusion | Oui | ||||
Tri par tas | Non | ||||
Tri par insertion | Oui | ||||
Introsort | Non | ||||
Tri par sélection | Non | ||||
Timsort | Oui | ||||
Tri de Shell | ou |
pour la meilleure suite d'espacements connue |
Non | ||
Tri à bulles | Oui | ||||
Tri arborescent | (arbre équilibré) | Oui | |||
Smoothsort | Non | ||||
Tri cocktail | Oui | ||||
Tri à peigne | Non | ||||
Tri pair-impair | Oui |
Pour un algorithme de tri donné instable, il est facile d'en obtenir une variante stable en utilisant un tableau supplémentaire pour mémoriser l'ordre initial des éléments. L'algorithme obtenu n'est toutefois pas en place.
Pour un algorithme de tri donné instable, il est facile d'en obtenir une variante stable en utilisant un tableau supplémentaire pour mémoriser l'ordre initial des éléments. Il peut être rendu stable, mais de préférence en travaillant sur des listes.
Ces algorithmes ont une complexité asymptotique en et sont par conséquent considérés comme lents pour des entrées dont la taille est de plus de quelques dizaines d'éléments.
Ces algorithmes ont une complexité asymptotique moins bonne que , qui est la complexité des algorithmes les plus intuitifs.
Les algorithmes de tri doivent aussi être adaptés en fonction des configurations informatiques sur lesquelles ils sont utilisés. Dans les exemples cités plus haut, on suppose que toutes les données sont présentes en mémoire centrale (ou accessibles en mémoire virtuelle). La situation se complexifie si l'on veut trier des volumes de données supérieurs à la mémoire centrale disponible (ou si l'on cherche à améliorer le tri en optimisant l'utilisation de la hiérarchie de mémoire).
Ces algorithmes sont souvent basés sur une approche assez voisine de celle du tri fusion. Le principe est le suivant :
Beaucoup d'algorithmes existent, mais certains sont bien plus utilisés que d'autres en pratique. Le tri par insertion est souvent plébiscité pour des données de petite taille, tandis que des algorithmes asymptotiquement efficaces, comme le tri fusion, le tri par tas ou quicksort, seront utilisés pour des données de plus grande taille.
Il existe des implémentations finement optimisées, qui sont souvent des algorithmes hybrides. Timsort utilise ainsi à la fois les méthodes de tri fusion et de tri par insertion, et est utilisé entre autres par Android, Java et Python ; Introsort, qui combine quicksort et tri par tas, est utilisé dans certaines implémentations du tri C++.
La comparaison empirique d'algorithmes n'est pas aisée dans la mesure où beaucoup de paramètres entrent en compte : taille de données, ordre des données, matériel utilisé, taille de la mémoire vive, etc. Par exemple, les essais effectués sur des données tirées aléatoirement ne représentent pas forcément très fidèlement les comportements obtenus avec des données réelles.
Afin de comparer différents algorithmes, il est important de prendre en compte la taille des données à trier ainsi que la quantité de mémoire vive disponible. Lorsqu'il n'y a plus assez de mémoire vive pour stocker les données, l'ordinateur aura recours à l'usage de mémoire externe, ce qui résulte en des temps d'accès nettement plus longs.
Dans cette situation, les algorithmes qui travaillent successivement sur des parties de plus petites tailles de l'entrée (qui seront par exemple fusionnées par la suite) auront tendance à mieux fonctionner que des algorithmes comme quicksort qui effectueront plus d'accès à la mémoire externe.
Il est également possible d'éviter de telles situations, par exemple en associant aux données à trier des clés plus petites, et en triant directement ces clés en mémoire vive. Lorsque la taille des données est vraiment conséquente, un algorithme de tri externe sera utilisé afin de minimiser le nombre d'accès à la mémoire externe.
Parmi les problèmes proches du tri, on peut mentionner le tri partiel (en), qui consiste, pour fixé, à trier les plus petits éléments, ou le problème de sélection, qui consiste à trouver le -ième plus petit élément de l'entrée. Bien que trier l'entrée en intégralité permette de résoudre ces problèmes, il existe des solutions plus subtiles et moins coûteuses. C'est le cas par exemple de quickselect, qui possède des similitudes avec le tri rapide.
À l'inverse, on peut chercher à construire des algorithmes qui mélangent de manière aléatoire l'entrée qui leur est donnée ; c'est le cas par exemple du mélange de Fisher-Yates.
Un autre problème est de trier un tableau qui est déjà presque trié (c'est le cas avec les mégadonnées où les algorithmes conventionnels sont disqualifiés). Cela peut réhabiliter des algorithmes comme le tri par insertion.
La création de la première routine de tri est attribuée à Betty Holberton, lors de la seconde guerre mondiale[4],[5].