'P-Hacking' permite que os cientistas massageiem os resultados. O método que pode eliminar lacunas estatísticas

A busca pela ciência é projetada para buscar significado em um labirinto de dados. Pelo menos, é assim que deve funcionar.

Segundo alguns relatos, essa fachada começou a se desfazer em 2010, quando um psicólogo social da Universidade de Cornell, Daryl Bem, publicou uma análise de 10 anos no prestigioso Journal of Personality and Social Psychology, demonstrando com métodos estatísticos amplamente aceitos que a percepção extra-sensorial (ESP) , basicamente o “sexto sentido”, era um fenômeno observável. Os colegas de Bem não conseguiram replicar os resultados do artigo, culpando rapidamente o que agora chamamos de “p-hacking”, um processo de massagear e analisar seus dados em busca de resultados estatisticamente significativos – e publicáveis.

Para apoiar ou refutar uma hipótese, o objetivo é estabelecer significância estatística registrando um “p-value” menor que 0,05, explica Benjamin Baer, pesquisador de pós-doutorado e estatístico da Universidade de Rochester, cujo trabalho recente procura abordar esse assunto. O “p” no valor p significa probabilidade e é uma medida de quão provável é um resultado de hipótese nula versus chance.

Por exemplo, se você quisesse testar se todas as rosas são vermelhas ou não, você contaria o número de rosas vermelhas e rosas de outras cores em uma amostra e realizaria um teste de hipótese para comparar os valores. Se esse teste gerar um valor de p inferior a 0,05, você tem motivos estatisticamente significativos para afirmar que existem apenas rosas vermelhas – mesmo que evidências fora de sua amostra de flores sugiram o contrário. Informações do portal popular mechanics.

O uso indevido de valores-p para apoiar a ideia de que a ESP existe pode ser relativamente inofensivo, mas quando essa prática é usada em testes médicos, pode ter resultados muito mais mortais, diz Baer. “Acho que o grande risco é que a decisão errada possa ser tomada”, explica ele. com base no que deveriam ser.”

Baer foi o primeiro autor de um artigo publicado no final de 2021 na revista PNAS, juntamente com seu ex-mentor Cornell e professor de estatística, Martin Wells, que analisou como novas estatísticas poderiam melhorar o uso de valores-p. A métrica que eles analisaram é chamada de índice de fragilidade e foi projetada para complementar e melhorar os valores-p.

Essa medida descreve a fragilidade de um conjunto de dados para alguns de seus pontos de dados passando de um resultado positivo para um negativo – por exemplo, se um paciente que foi impactado positivamente por um medicamento realmente não sentiu nenhum impacto. Se alterar apenas alguns desses pontos de dados for suficiente para rebaixar um resultado de estatisticamente significativo para não, ele é considerado frágil.

Em 2014, o médico Michael Walsh propôs originalmente o índice de fragilidade no Journal of Clinical Epidemiology. No artigo, ele e seus colegas aplicaram o índice de fragilidade a pouco menos de 400 ensaios clínicos randomizados com resultados estatisticamente significativos e descobriram que um em cada quatro tinha pontuações de fragilidade baixas, o que significa que suas descobertas podem não ser muito confiáveis ou robustas.

No entanto, o índice de fragilidade ainda não ganhou força em testes médicos. Alguns críticos da abordagem surgiram, como Rickey Carter, da Mayo Clinic, que diz que é muito semelhante aos valores-p sem oferecer melhorias suficientes. “A ironia é que o índice de fragilidade foi uma abordagem de hacking”, diz Carter.

“CONVERSAR COM A FAMÍLIA DA VÍTIMA DEPOIS DE UMA CIRURGIA FALHAR É UMA [EXPERIÊNCIA] MUITO DIFERENTE DO QUE OS ESTATÍSTICOS SENTADOS À SUA MESA FAZENDO MATEMÁTICA.”

Para melhorar o índice de fragilidade, Baer, Wells e colegas se concentraram em melhorar dois elementos principais para responder às críticas anteriores: apenas fazer modificações suficientemente prováveis e generalizar a abordagem para trabalhar além das tabelas binárias 2×2 (representando controle positivo ou negativo e resultados do grupo experimental) .

Apesar da batalha árdua que o índice de fragilidade travou até agora, Baer diz que ainda acredita que é uma métrica útil para estatísticos médicos e espera que as melhorias feitas em seu trabalho recente ajudem a convencer outros disso também.

“Conversar com a família da vítima depois que uma cirurgia falha é uma [experiência] muito diferente do que os estatísticos sentados em suas mesas fazendo contas”, diz Baer.

‘P-Hacking’ permite que os cientistas massageiem os resultados. O método que pode eliminar lacunas estatísticas

ÚLTIMAS NOTÍCIAS

Horóscopo Chinês de sete de março de 2025

Horóscopo de sete de março de 2025

Pix tem novas regras

Guto Silva retorna ao PSD

hot news

CBF define dias dos jogos dos times paranaenses na Copa do Brasil

Horóscopo Chinês de sete de março de 2025

As fobias mais comuns e como se tratar delas

Homem tenta estuprar mulher na frente do marido

ARTIGOS RELACIONADOS

Escorpião gigante encontrado na China

Como e quando o mundo vai acabar?

Módulo lunar divulga fotos inéditas da superfície da Lua

Camundongos são capazes de administrar primeiros socorros

DEIXE UM COMENTÁRIO Cancelar comentário

Telescópio Hubble encontra 12 galáxias aglomeradas

Astrônomos encontram buraco negro 33 vezes mais massivo que o Sol