| n | arbres |
|---|---|
| 2 | 1 |
| 3 | 3 |
| 4 | 15 |
| 5 | 105 |
| 6 | 945 |
| 7 | 10395 |
| 8 | 135135 |
| 9 | 2027025 |
| 10 | 34459425 |
| 20 | 8.200795 × 1021 |
| 30 | 4.951798 × 1038 |
| 40 | 1.009847 × 1057 |
| 50 | 2.752921 × 1076 |
Avant tout chose
Pourquoi?
Les linguistes ont pendant longtemps réalisé des classifications phylogénétiques des langues à la main. Toutefois cela devient rapidement impossible avec de larges jeux de données à moins de partir à la «cueillette de cerises» en sélectionnant intentionnellement un petit nombre de données, ce qui est la porte ouverte aux biais de sélection.
Même pour les méthodes les plus simples, comme la lexicostatistique, qui peuvent être effectuées manuellement, l’analyse des données est longue et fastidieuse, et la moindre modification des données demande de recommencer à zéro. Il s’agit là typiquement d’une tâche pour un ordinateur.
Pour n taxons, il y a \(\frac{(2n-3)!}{2^{n-2}(n-2)!}\) arbres racinés à embranchements binaires possibles. Pour 10 langues, il y a plus de 34 millions de possibilités.
En outre, la plupart des méthodes d’inférence phylogénétique compare les différents arbres théoriquement possibles à la recherche du ou des arbres optimaux selon le critère choisi (maximum de parcimonie, de compatibilité, de vraisemblance, de probabilité postérieure). Or le nombre d’arbres à comparer devient vite astronomique en fonction du nombre de taxons (langues), si bien qu’il est le plus souvent impossible de comparer tous les arbres possibles, et il est nécessaire de recourir à des méthodes heuristiques complexes afin de trouver une solution approximative. Il est évidemment impossible de se passer d’un ordinateur pour cela.
Le logiciel R, en plus d’être libre, gratuit et multiplateforme, est particulièrement indiqué pour ce genre de travail. Il est spécialisé dans l’analyse quantitative et la visualisation de données, et il existe de nombreuses extensions dédiées à la phylogénétique.
Le logiciel R n’est cependant pas uilisable pour effectuer des inférences phylogénétiques. Seules les méthodes les plus simples sont implémentées, et il est normalement nécessaire d’utiliser d’autres outils. C’est notamment des méthodes bayésiennes qui sont à l’heure actuelle les plus couramment utilisées.
En revanche, R est un outil de choix pour l’analyse des résultats d’inférence phylogénétique obtenus avec d’autres outils.
Installation des logiciels
Il est nécessaire avant toute chose d’installer le logiciel R si ce n’est pas déjà fait: https://cran.r-project.org/.
L’utilisation de l’environnement de développement gratuit, libre et multiplateforme Rstudio est recommandée.
Il est également nécessaire d’installer un certain nombre d’extensions R. Il suffit pour cela de saisir les commandes suivantes dans la console R.
install.packages("tidyverse")
install.packages("ape")
install.packages("phangorn")
install.packages("TreeTools")Les extensions ggtree et tanggle pour la visualisation avancée des arbres phylogénétiques nécessitent au préalable d’installer BiocManager.
install.packages("BiocManager")
BiocManager::install("ggtree")
BiocManager::install("tanggle")