Neutrallelix : Test de neutralité monolocus, multiallélique

 
English version
Télécharger

 

Ce logiciel, écrit sous Inprise Delphi TM version 4.0, et fonctionnant sous système d’exploitation Windows 95 ou version ultérieure, permet de tester l’hypothèse de neutralité dans un jeu de données génétiques.

Référence : Raufaste, N. and F. Bonhomme, 2001. Single locus, multiallelic test of neutrality with two multiallelic estimators of Fst. (soumis)
 

Pour des questions ou des commentaires, veuillez contacter : nraufaste@crit.univ-montp2.fr.

Pour plus d’informations sur les attendus neutres des estimateurs multialléliques de Weir et Cockerham (1984) et de Robertson et Hill (1984), voir : Raufaste, N et F. Bonhomme, 2000
 

Principe :

Le programme simule N individus diploïdes en panmixie, dans P populations dans un modèle en îles infini (ou fini avec P populations, ou en stepping-stone, selon l’option choisie). La mutation est négligée devant la migration.

Au temps t=0, dans chaque population, les N individus diploïdes sont tirés au hasard parmi un pool infini d’allèles en fréquences définies par l’utilisateur dans le fichier d’entrée. Il est à noter que, dans le modèle en îles infini, la métapopulation conservera pendant tout le processus les fréquences initiales, à cause de l’absence de dérive.

Le pool gamétique à l’origine de la génération suivante est constitué en proportion (1-m) de gamètes issus des parents locaux, et en proportion (m) de gamètes issus de la métapopulation (dans le cas du modèle en stepping-stone, par m/2 migrants venant de l’île contigue de gauche, et m/2 de l’île contigue de droite).

Ce processus est répété pendant T générations. A l’issue de ces T générations, n individus sont échantillonnés dans chaque population, et les deux estimateurs multialléliques du Fst (RH de Robertson et Hill, 1984 (formalisé dans Weir et Cockerham, 1984), et WC de Weir et Cockerham, 1984) sont calculés, ainsi que la valeur de la statistique de test, Delta = WC - RH.

L’ensemble de ce processus est répété I fois, où I vaut usuellement 1000.

Ainsi, la distribution de Delta est simulée dans des conditions les plus proches possibles de ceux de votre jeu de données. La comparaison de la valeur de Delta observée dans vos données, et de la distribution simulée, permet d’accepter ou de rejeter l’hypothèse nulle de neutralité.
 

Paramètres d’entrée :

Ce sont P, le nombre de populations échantillonnées, N le nombre d’individus dans chaque population, n le nombre d’individus échantillonnés dans chaque population, m le taux de migration, A le nombre d’allèles au locus considéré, T le nombre de générations avant échantillonnage, et I le nombre d’itérations de l’ensemble du processus.

P, n et A doivent être conformes à votre jeu de données. Le produit Nm doit être conforme à la valeur observée du Fst, soit Nm=(1/Fst-1)/4. Le fait que N et m doivent être choisis séparément ne modifie pas les résultats. Le nombre de générations T doit être choisi tel que l’équilibre migration-dérive soit atteint.

Le dernier « paramètre » d’entrée est la valeur de Delta = WC - RH observée sur votre jeu de données, cette valeur sera comparée aux valeurs obtenues par simulations. Les valeurs de WC et de RH sur votre jeu de données peuvent être calculées par Genetix (http://www.univ-montp2.fr/~genetix/labo.htm), voir le menu : F-stats / Weir & Cockerham.
 

Fichier d’entrée :

Le fichier d’entrée doit être constitué de A colonnes et de (P+1) lignes, où A est le nombre d’allèles au locus considéré, et P le nombre de populations échantillonnées. Les P premières lignes décrivent les fréquences alléliques initiales dans chacune des populations, et la dernière ligne décrit les fréquences alléliques initiales (et constantes tout au long du processus en modèle en îles infini) dans la métapopulation. Le séparateur entre colonnes est la tabulation.

En préparation : le fichier d'entrée pourra bientôt être un fichier au format Genetix, Genepop ou Fstat.
 

Fichier de sortie :

Ce fichier donne, pour chacune des I simulations, les valeurs de WC, RH et Delta = WC – RH. Dans l’onglet ‘Résultats graphiques’, le programme donne le nombre de fois où, sur les I itérations, la valeur de Delta = WC - RH a été supérieure à la valeur de Fst observée dans votre jeu de données, ainsi que le nombre de fois où elle a été inférieure. Si l’un de ces nombres est inférieur à 5% (ou à 2.5% si l’on travaille en bilatéral), alors le test permet de rejeter l’hypothèse nulle de neutralité.
 

Recommandations :

Il est recommandé de n’inclure, pour la valeur de Fst observée dans votre jeu de données, que les populations les plus homogènes possibles. Il faut auparavant tester pour l’isolement par la distance, s’il y en a, il sera préférable d’utiliser le modèle en stepping-stone. L’inclusion d’une population très distante des autres (très différenciée génétiquement) risque de fausser le test.
 

Aide :

De l’aide contextuelle est fournie lorsqu’on s’attarde sur chaque plage d’entrée de paramètre.
 

Matériel requis :

Ordinateur compatible IBM possédant un système d'exploitation Windows 95 ou versions ultérieures, ainsi que les caractéristiques minimales suivantes : espace-disque disponible > 4 Mo ; RAM > 6 Mo ; processeur de type Intel 386 et suivantes.

Ou bien Macintosh PowerPC possédant un émulateur de type VirtualPC.
 

Temps moyen de calcul :

A titre d’exemple, pour 10 populations ayant chacune une taille de 500, 30 allèles, 400 générations et 1000 itérations de tout le processus, sur une machine Celeron à 550 Mhz, le résultat est fourni en 1h environ.
 

Remerciements :

Un grand merci à Khalid Belkhir pour les conseils de programmation, l’interface lui doit beaucoup (presque tout, en fait…).
 

Références :

Raufaste N., Bonhomme F., 2000. Properties of bias and variance of two multiallelic estimators of Fst. Theor. Pop. Biol. 57: 285-296.

Robertson A., Hill W.G., 1984. Deviations from Hardy-Weinberg proportions: sampling variances and use in estimation of inbreeding coefficients. Genetics 107: 703-718.
Weir B.S., Cockerham C.C., 1984. Estimating F-statistics for the analysis of population structure. Evolution 38: 1358-1370.

 
 

Neutrallelix : Single locus, multiallelic, test of neutrality

 
 

Version française
 

Download
 

The software has been developed in Inprise DELPHI 4.0 and runs under the Windows 95 operating systems. It is aimed at testing the neutral hypothesis in a genetical data set.

Reference : Raufaste, N. and F. Bonhomme, 2001. Single locus, multiallelic test of neutrality with two multiallelic estimators of Fst. (submitted)
 

For questions or comments, please contact : nraufaste@crit.univ-montp2.fr.

For more information on the neutral expectations of multiallelic estimators of Fst, i.e. the one of Weir and Cockerham (1984) and that of  Robertson and Hill (1984), see : Raufaste, N and F. Bonhomme, 2000
 

Principle :

We assume P randomly mating populations of N diploid individuals in an infinite island model (or finite with P populations, or a stepping-stone model). In each generation, the sequence of events is reproduction, and migration of gametes (no mutation is assumed here).

At time t=0, N diploid individuals in each population are drawn at random from an infinite allelic pool whose frequencies are given in the input file. In the infinite island model, the allelic frequencies in the metapopulation are constant because no drift occurs.

Proportions of (1-m) gametes from the local island, and (m) gametes coming from the metapopulation (either infinite or finite ; for the stepping-stone model, m/2 migrant alleles come from the left population, and m/2 from the right population) contribute to the gametic pool of each island from which N individuals of the progeny are drawn at random.

After T generations of this process, n individuals are sampled in each population, and both multiallelic estimators of Fst (RH of Robertson and Hill, 1984 (the complete formula is given in Weir and Cockerham, 1984), and WC of Weir and Cockerham, 1984), as well as the test statistic Delta = WC - RH, are computed.

The whole process is repeated I (usually 1000) times.

Hence the distribution of Delta is simulated in conditions as close as possible from those of your data set. Comparing the observed value and the simulated null distribution leads to the acceptance or rejection of the null hypothesis of neutrality.
 

Input parameters :

The parameters of the model are : the number of sampled populations P, the number of individuals per population N, the mean number of sampled individuals in each population n, the migration rate m, the number of alleles at the considered locus A, the number of generations before sampling T, and the number of iterations of the whole process I.

P, n and A shall be consistent with your data set. The product N*m is to be calculated from the observed Fst, by Nm=(1/Fst-1)/4. Choosing different couples (N,m) has low influence on the results. The number of generations T has to be chosen so that the migration-drift equilibrium is reached. The last “parameter” is Delta = WC - RH that you observed in your data set ; it is used for comparison with simulated Deltas. The values of WC and RH in your data set can be calculated with Genetix (http://www.univ-montp2.fr/~genetix/labo.htm), in the menu : F-stats / Weir & Cockerham.
 

Input file :

The input file is constituted of A columns and (P+1) raws, where A is the number of alleles at the considered locus. The P first lines describe the initial allelic frequencies in each population, and the last line describes the initial allelic frequencies in the metapopulation. The columns are separated by tabulations.

In preparation : the software will soon accept an input file in Genetix, Genepop or Fstat format.
 

Output file :

For each of the I simulations, the output file gives the values of WC, RH and Delta = WC – RH. In the ‘Results and graphs’ tab, the program returns the number of times where, amongst the I iterations, the simulated value of Delta = WC - RH is bigger (respectively lower) than the observed value in your data set. If one of these numbers is lower than 5% (or 2.5% for a bilateral test), the test rejects the null hypothesis of neutrality.
 

Advise :

It is recommended to include only homogeneous populations in the comparison. Testing for isolation by distance must be performed before the neutrality test ; if there is evidence for isolation by distance, the stepping-stone model shall be used. Including a genetically distant (very differentiated) population may bias the test.
 

Help :

Contextual help is given when staying on an input edit.
 

Hardware :

IBM compatible computer with Windows 95 or later versions, as well as the minimal characteristics : free disk-space > 4 Mo ; RAM > 6 Mo ; 386 processor and later.

Or Macintosh PowerPC with VirtualPC (or related) emulator.
 

Mean run-time :

As an example, for 10 populations of size 500, 30 alleles, 400 generations and 1000 iterations of the whole process, on a 550 Mhz Celeron, the result is given in 1h approximately.
 

Acknowledgements :

Thanks to Khalid Belkhir, I owe most of the interface to him, as well as a lot of computering advise.
 

References :

Raufaste N., Bonhomme F., 2000. Properties of bias and variance of two multiallelic estimators of Fst. Theor. Pop. Biol. 57: 285-296.

Robertson A., Hill W.G., 1984. Deviations from Hardy-Weinberg proportions: sampling variances and use in estimation of inbreeding coefficients. Genetics 107: 703-718.
Weir B.S., Cockerham C.C., 1984. Estimating F-statistics for the analysis of population structure. Evolution 38: 1358-1370.

 
 
 
 

Download

 

 
 
 
 
 
 
 

Télécharger la version française : Neutrallelix v1.0
 
Download English version : Neutrallelix v1.0

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

depuis le 29 Nov 2000