Quantos indivíduos amostrar em estudos de ecologia molecular?
Esta e outras perguntas são frequentes em estudos iniciais de genética de populações e filogeografia. Com vocês, o desafio do tamanho amostral!
De fato, determinar o tamanho ideal de amostras pode ser uma das decisões mais críticas ao planejar um estudo de ecologia molecular ou biologia da conservação. Amostras insuficientes podem mascarar padrões evolutivos reais, enquanto amostragens excessivas consomem tempo e recursos desnecessários.
Mas afinal, quantos indivíduos devemos coletar por população ou espécie?
Equilíbrio entre precisão e viabilidade
O tamanho amostral precisa ser grande o bastante para capturar a variabilidade genética real, evitando que os resultados reflitam o acaso, mas também viável diante das limitações de campo, orçamento, tempo e impacto sobre as espécies estudadas.
Cada projeto, no entanto, tem um objetivo diferente. Um geneticista de conservação interessado em representar toda a variabilidade genética de uma população (por exemplo, para um banco de sementes) concentra esforços em amostrar indivíduos suficientes para incluir quase todos os alelos, inclusive os raros. Já um estudo de estrutura genética populacional pode priorizar a precisão nas frequências alélicas de alelos comuns, exigindo amostras menores.
O que influencia o tamanho amostral
Alguns fatores fundamentais que determinam o número ideal de amostras são:
Número e frequência dos alelos: quanto mais alelos e quanto mais raros forem, maior deve ser a amostra. Para capturar alelos raros (<5% de frequência), podem ser necessárias centenas de amostras (Wang et al., 2004).
Objetivo do estudo: seria detectar variação entre linhagens genealógicas de uma espécie ou espécies relacionadas ao longo da sua distribuição geográfica (filogeografia)? Ou pretende avaliar a variação entre e dentro de populações num contexto regional e contemporâneo (estrutura genética).
Tipo e número de marcadores: o uso de marcadores codominantes (SSR, SNPs) e com distribuição equilibrada de frequências alélicas aumenta o poder de detecção.
Distribuição geográfica e número de populações: mais populações exigem redistribuir o esforço amostral entre locais, equilibrando profundidade e abrangência (ver a seguir).
Algumas orientações práticas
É impossível uma regra universal, conforme diversos fatores citados anteriormente. Mas a literatura oferece parâmetros de referência:
20 a 50 indivíduos por população costumam ser suficientes para estimar frequências alélicas com boa precisão em estudos populacionais.
Em estudos comparativos em larga escala geográfica (exemplo de filogeografia), pode-se priorizar mais populações (≥30) com menos indivíduos por local (5 a 10 por população), garantindo cobertura espacial ampla (Prinz et al., 2009).
O ideal é utilizar mais de 10 loci moleculares codominantes (e >100 para marcadores dominantes), pois isso melhora a resolução e reduz o erro associado à amostragem de poucos marcadores (veja referências aqui).
Sempre que possível, selecione marcadores com distribuição uniforme de frequências alélicas, o que aumenta o poder estatístico mesmo com poucos loci.
Resumo com modificações de "Determining the appropriate sample size for studies in molecular ecology do livro "Molecular Ecology" de Freeland, Kirk e Peterson (2011).
Referências:
FREELAND, J. R.; KIRK, H.; PETERSEN, S. D. Molecular Ecology. 2. ed. Chichester: Wiley-Blackwell, 2011.
PRINZ, K.; WEISING, K.; HENSEN, I. Genetic structure of coastal and inland populations of the annual halophyte Suaeda maritima (L.) Dumort. in Central Europe, inferred from amplified fragment length polymorphism markers. Plant Biology, v. 11, n. 6, p. 812–820, 2009. https://doi.org/10.1111/j.1438-8677.2008.00178.x
WANG, J. et al. Statistical genetics and simulation models in genetic resource conservation and regeneration. Crop Science, v. 44, n. 6, p. 2246–2253, 2004. https://doi.org/10.2135/cropsci2004.2246
