InícioCiência'P-Hacking' permite que os cientistas massageiem os resultados. O...

‘P-Hacking’ permite que os cientistas massageiem os resultados. O método que pode eliminar lacunas estatísticas

spot_img

A busca pela ciência é projetada para buscar significado em um labirinto de dados. Pelo menos, é assim que deve funcionar.

Segundo alguns relatos, essa fachada começou a se desfazer em 2010, quando um psicólogo social da Universidade de Cornell, Daryl Bem, publicou uma análise de 10 anos no prestigioso Journal of Personality and Social Psychology, demonstrando com métodos estatísticos amplamente aceitos que a percepção extra-sensorial (ESP) , basicamente o “sexto sentido”, era um fenômeno observável. Os colegas de Bem não conseguiram replicar os resultados do artigo, culpando rapidamente o que agora chamamos de “p-hacking”, um processo de massagear e analisar seus dados em busca de resultados estatisticamente significativos – e publicáveis.

Para apoiar ou refutar uma hipótese, o objetivo é estabelecer significância estatística registrando um “p-value” menor que 0,05, explica Benjamin Baer, ​​pesquisador de pós-doutorado e estatístico da Universidade de Rochester, cujo trabalho recente procura abordar esse assunto. O “p” no valor p significa probabilidade e é uma medida de quão provável é um resultado de hipótese nula versus chance.

Por exemplo, se você quisesse testar se todas as rosas são vermelhas ou não, você contaria o número de rosas vermelhas e rosas de outras cores em uma amostra e realizaria um teste de hipótese para comparar os valores. Se esse teste gerar um valor de p inferior a 0,05, você tem motivos estatisticamente significativos para afirmar que existem apenas rosas vermelhas – mesmo que evidências fora de sua amostra de flores sugiram o contrário. Informações do portal popular mechanics.

O uso indevido de valores-p para apoiar a ideia de que a ESP existe pode ser relativamente inofensivo, mas quando essa prática é usada em testes médicos, pode ter resultados muito mais mortais, diz Baer. “Acho que o grande risco é que a decisão errada possa ser tomada”, explica ele. com base no que deveriam ser.”

Baer foi o primeiro autor de um artigo publicado no final de 2021 na revista PNAS, juntamente com seu ex-mentor Cornell e professor de estatística, Martin Wells, que analisou como novas estatísticas poderiam melhorar o uso de valores-p. A métrica que eles analisaram é chamada de índice de fragilidade e foi projetada para complementar e melhorar os valores-p.

Essa medida descreve a fragilidade de um conjunto de dados para alguns de seus pontos de dados passando de um resultado positivo para um negativo – por exemplo, se um paciente que foi impactado positivamente por um medicamento realmente não sentiu nenhum impacto. Se alterar apenas alguns desses pontos de dados for suficiente para rebaixar um resultado de estatisticamente significativo para não, ele é considerado frágil.

Em 2014, o médico Michael Walsh propôs originalmente o índice de fragilidade no Journal of Clinical Epidemiology. No artigo, ele e seus colegas aplicaram o índice de fragilidade a pouco menos de 400 ensaios clínicos randomizados com resultados estatisticamente significativos e descobriram que um em cada quatro tinha pontuações de fragilidade baixas, o que significa que suas descobertas podem não ser muito confiáveis ​​ou robustas.

No entanto, o índice de fragilidade ainda não ganhou força em testes médicos. Alguns críticos da abordagem surgiram, como Rickey Carter, da Mayo Clinic, que diz que é muito semelhante aos valores-p sem oferecer melhorias suficientes. “A ironia é que o índice de fragilidade foi uma abordagem de hacking”, diz Carter.

“CONVERSAR COM A FAMÍLIA DA VÍTIMA DEPOIS DE UMA CIRURGIA FALHAR É UMA [EXPERIÊNCIA] MUITO DIFERENTE DO QUE OS ESTATÍSTICOS SENTADOS À SUA MESA FAZENDO MATEMÁTICA.”

Para melhorar o índice de fragilidade, Baer, ​​Wells e colegas se concentraram em melhorar dois elementos principais para responder às críticas anteriores: apenas fazer modificações suficientemente prováveis ​​e generalizar a abordagem para trabalhar além das tabelas binárias 2×2 (representando controle positivo ou negativo e resultados do grupo experimental) .

Apesar da batalha árdua que o índice de fragilidade travou até agora, Baer diz que ainda acredita que é uma métrica útil para estatísticos médicos e espera que as melhorias feitas em seu trabalho recente ajudem a convencer outros disso também.

“Conversar com a família da vítima depois que uma cirurgia falha é uma [experiência] muito diferente do que os estatísticos sentados em suas mesas fazendo contas”, diz Baer.

spot_img

ÚLTIMAS NOTÍCIAS

hot news

Publicidade

ARTIGOS RELACIONADOS

DEIXE UM COMENTÁRIO

Por favor digite seu comentário!
Por favor, digite seu nome aqui