Gerardo Cano Cárdenas
A01226425
El p-hacking desde la óptica de la ética
La influencia que poseen tanto las revistas
científicas, como las empresas y centros de investigación que dotan de fondos a
los investigadores y sus trabajos, plantea una serie de cuestionamientos éticos
que giran alrededor de la presión de publicar estudios de manera casi
industrial para contar con la financiación necesaria para realizar
investigaciones científicas a expensas de resultados poco reproducibles y que
se pueden tomar en un contexto equivocado.
Lo anterior se ha traducido en la viralización de la
práctica de p-hacking o pesca de datos. La cual, es un actividad tan usual en
la comunidad científica como polémica. Pues, en los últimos años, se han
analizado los efectos negativos que ésta ha tenido en una gran cantidad de
estudios en todo el mundo, especialmente, en aquellos que han arrojado una
importante cantidad de falsos positivos. Esta polémica alcanzó su cúspide cuando
en el año 2016, la American Statistical Association (ASA) publicó directrices
explícitas sobre cómo evitar la aplicación incorrecta de los valores p (Singh,
2019).
Las opiniones son claramente divergentes: por un lado,
la asociación pide que los investigadores reporten los hallazgos
independientemente de sus resultados, en lugar de escogerlos y publicar sólo
hallazgos positivos y, por otro, los mismos investigadores piden libertad de
escoger sus métricas para reportar sus resultados siempre y cuando éstas fuesen
debidamente justificadas (Singh, 2019). En contraste, las empresas que dan
fondos para estos estudios pueden tener una predisposición de sólo aceptar
estudios con resultados positivos que favorezcan a la marca (2019).
Este tema es de vital importancia, ya que, al existir
un sesgo en los estudios científicos, los resultados de estos pueden tener un
efecto importante en una gran variedad de disciplinas, como la nutrición, la
ingeniería, la medicina, las ciencias exactas, entre otras. Es por ello que existe
una gran responsabilidad que recae en estos actores para tomar una serie de
medidas que aseguren la veracidad y exactitud de los resultados publicados, así
como encontrar cursos de acción éticamente correctos para asegurar la dignidad
de las personas, pacientes y consumidores que serán afectados.
En este ensayo se argumentará que a pesar de tener una
obligación de publicar la mayor cantidad de publicaciones posibles, la práctica
de p-hacking debe de ser erradicada ya que, aunque es una forma de medir
estadísticamente la existencia o inexistencia de un efecto significativo en un
estudio, que sea una métrica confiable y fácilmente utilizada
interdisciplinarmente y que existe un estándar definido desde hace muchas
décadas sobre su uso, no es éticamente correcto continuar con el uso del
p-hacking para fines de publicación si los resultados muestran valores que presentan
un falso positivo; asimismo, se defiende que tanto las relaciones inexistentes
como las existentes deben de ser publicadas, porque aunque éstas no presenten
resultados emocionantes y dignos de atención mediática, presentan un mejor
panorama de lo que se estudió. Para
ello se analizará por medio de tres visiones, la ética kantiana, el
utilitarismo y la ética aristotélica.
Key Words: p-hacking, artículo, categorías, científico, valor p,
ética, Kant, utilitarismo, interlocutor válido.
El p-hacking o pesca de datos es definido como “un
proceso que supone la comprobación de forma automática de un gran número de
hipótesis sobre un único conjunto de datos mediante una exhaustiva búsqueda de
combinaciones de variables que podrían mostrar una correlación” (Vergara,
2016). En las ciencias empíricas se utiliza principalmente el umbral de
significación del 5%, también conocido como el estándar dorado (Nuzzo 2014, p.
120-122). La diferencia entre 0,049 y 0,051 en la probabilidad de error es marginal.
Sin embargo, desde el punto de vista del umbral de significación del 5%, el
primero sería un efecto significativo, mientras que el segundo sería un efecto
no significativo (Schneck, 2017, p. 4). Es por eso que, cuando se ponen a
prueba suficientes hipótesis, es seguro que éstas puedan aparecer como
estadísticamente relevantes.
Cuantificar el p-hacking es importante porque la
publicación de falsos positivos, no sólo obstaculiza el progreso científico,
sino por el impacto que tiene en el comportamiento de los individuos. Cuando
los resultados positivos falsos entran en la literatura pueden ser muy
persistentes. En muchos campos, hay pocos incentivos para replicar la
investigación (Kelly, 2006, p.221-236). Incluso cuando la investigación se
repite, los primeros estudios positivos a menudo reciben más atención que los
posteriores negativos. Además, los falsos positivos pueden inspirar inversiones
en programas de investigación infructuosos, e incluso desacreditar campos
enteros (Simmons et al, 2011, p. 1359).
El valor p es fácilmente malinterpretado. Por ejemplo,
a menudo se equipara con la fuerza de una relación, pero un pequeño tamaño de
efecto puede tener valores p muy bajos con un tamaño de muestra suficientemente
grande. Del mismo modo, un valor p bajo no significa que un hallazgo tenga un
interés clínico o biológico importante (Head et al, 2015, p.3). Es así que, el
uso del p-hacking dentro de los estudios científicos afecta no sólo el
resultado de este, sino la percepción del público y de los medios acerca de un
efecto que podría ser inexistente.
El caso más reciente de un personaje público que
utilizó este tipo de proceso fue el científico Brian Wansink de la Universidad
de Cornell en Estados Unidos. Quince de sus estudios fueron removidos de
journals científicos debido al uso de pesca de datos, con estudios que sugieren
que las personas que compran alimentos con hambre compran más calorías; que
pedir el almuerzo antes de comer puede ayudarle a elegir alimentos más sanos; y
que servir a la gente en tazones grandes los anima a servirse porciones más
grandes (Resnick, 2018).
Él es una de las razones por las que las grandes
empresas de alimentación empezaron a ofrecer envases de snacks más pequeños, en
porciones de 100 calorías; hasta una vez dirigió el comité de directrices
dietéticas del USDA e influyó en la política pública de Estados Unidos (Resnick,
2018). Su influencia
antes de ser mundialmente expuesto es innegable, y muestra cómo existe una gran
confianza en los estudios científicos aún cuando éstos no han sido debidamente
analizados y repetidos, afectando regulaciones que pueden tener grandes ramificaciones
en la población, desde su dieta hasta su salud.
En este caso, se podría entender desde un punto de
vista utilitarista el porqué es que el p-hacking es tan común. Según Rachels
(2006) y Novoa Jurado (2018, p.14), el utilitarismo es aquella corriente ética
en donde el bienestar imparcial de la mayoría rige las decisiones. Si se sabe
que publicando estudios con resultados dudosos haría que, tanto el investigador
cómo la universidad recibiese una cantidad mayor de prestigio, fondos
gubernamentales y atención mediática, se podría entender como este efecto
podría llevar a qué estos datos fuesen ligeramente modificados para cumplir con
este deseo. Es decir, desde el utilitarismo en la comunidad científica, la
publicación de falsos positivos encuentra su justificación, pues esta beneficia
y potencia la investigación lo que, a larga tendría mejores resultados, alimentando
el ciclo de artículos en las publicaciones científicas (Blackwell, 2004, p.3).
En contraste, y según la teoría del categórico
imperativo de Kant (2001, p.6) el hombre nunca debe ser usado como un medio
para un fin, sino como el fin en sí. No se puede justificar el utilizar datos
modificados para llegar a una conclusión deseada o al crecimiento/bienestar de
la comunidad científica, ya que los efectos de los estudios van más allá de lo
académico, impactando la vida y comportamiento de los individuos, tal es el
caso que el artículo de Brian Wansink tuvo un importante impacto en políticas gubernamentales
y esto podría haber llevado a una serie de acciones que afectarían de forma
grave a la población estadounidense en general, y si no se replicase el
experimento, a la población mundial. Así, se comprueba que se
están usando a los investigadores como medio para un mayor fondo económico, al
priorizar el resultado sobre la investigación. ¿Cuántas veces se han apoyado a
proyectos no sólo con financiación sino con material difícil de conseguir por
parte de una compañía, proveyendo un apoyo crítico sin el que no se pudiese
realizar el estudio?, ¿si el éxito de un proyecto fuese completamente
dependiente del resultado positivo del mismo? ¿Existiría alguna solución a
largo plazo de esta problemática?
Esto ha llevado a que asociaciones como la ASA debatan
acerca de la posibilidad de que los estudios científicos publiquen todos sus
hallazgos, aunque estos no lleguen a resultados definitivos y concluyentes
(Singh, 2019). Esto seguiría el principio que enuncia Hans Jonas (1995, p.6)
acerca del imperativo de actuar de tal manera que los efectos de nuestras
acciones sean compatibles con la permanencia de una vida humana auténtica. Si
bien, el contraargumento recae en el hecho de que no es posible hacer cambiar a
toda la comunidad científica en tan corto plazo de tiempo y que su metodología
actual bien podría ser válida, es posible generar un diálogo con interlocutores
válidos entre la comunidad de investigadores y la comunidad de estadísticos
para desarrollar una serie de lineamientos que puedan ayudar a esclarecer este
problema, en línea con la ética dialógica.
La clave para disminuir el p-hacking es una mejor
educación de los investigadores. Muchas de las prácticas que conducen al
p-hacking todavía se consideran aceptables. John et al. (2012, p.4) midieron la
prevalencia de prácticas de investigación cuestionables en psicología.
Preguntaron a los participantes de la encuesta si alguna vez habían participado
en un conjunto de prácticas de investigación cuestionables y, de ser así, si
consideraban que sus acciones eran defendibles en una escala de 0-2 (0 = no, 1
= posiblemente, 2 = sí). Más del 50% de los participantes admitieron "no
reportar todas las medidas dependientes de un estudio" y "decidir si
recolectar más datos después de ver si los resultados eran
significativos", y estas prácticas recibieron una calificación media de
defensividad superior a 1,5 (2012, p.5). Esto indica que muchos investigadores
incurren en la práctica, pero no aprecian el grado en que esto es una forma de
mala conducta científica, ¿por qué cambiar un sistema que aparentemente no está
roto?
Debido a las implicaciones éticas que tiene esta
práctica, se considera fundamental que las posibles soluciones se enmarcaran
dentro de teorías de esta materia, con el fin de contribuir al desarrollo de iniciativas integrales y que respeten a los individuos. En ese sentido, una
solución englobaría tanto a los investigadores, cómo a las revistas
científicas. Siguiendo la ética aristotélica (Cortina, 2001, p.2; Alejandro Farieta, 2019, p.15) los primeros deberán de
cumplir con las normas de análisis tales como: medir sólo las variables de
respuesta que se sabe que son importantes, utilizar tamaños de muestra
suficientes. mayor énfasis en la calidad de los métodos de investigación y la
recolección de datos que en la importancia o novedad de los hallazgos
subsiguientes al revisar o evaluar la investigación. Lo ideal es que los
métodos se evalúen independientemente de los resultados (Head et al, 2015, p.2).
De esta manera, se puede llegar a un balance entre dos extremos, para tener un
comportamiento virtuoso, encontrando el equilibrio correcto a través de la
aplicación de la razón y la sabiduría en los investigadores.
Las revistas, en cambio, deberán de proporcionar
directrices claras y detalladas para la presentación de informes completos
sobre los análisis de los datos y los resultados. Por ejemplo, se debe de
declarar que es necesario informar sobre los tamaños de los efectos, ya sean
pequeños o grandes, reportar todos los valores p con tres decimales, reportar
los tamaños de las muestras y, lo que es más importante, ser explícito sobre
todo el proceso de análisis (Head, et al, 2015, p.3). Esto reducirá el
p-hacking y ayudará a la recopilación de datos para análisis y estudios de
data-mining, ya que, si se presenta una transparencia completa en los
resultados, se aboga por la práctica correcta como máxima universal, siguiendo
los lineamientos del categórico imperativo de Kant, Obrando sólo según una
máxima tal que puedas querer al mismo tiempo que se torne ley universal
(Rachels, 2012, p.11; Larigeut, 2016, p. 192). Si se es completamente
transparente con los resultados, sabiendo de los efectos que tendrá,
CONCLUSIONES
El presente ensayo ha analizado desde una perspectiva
ética la práctica del p-hacking y como ésta afecta a las publicaciones
científicas. De tal modo, es posible afirmar que el p-hacking ha sido usado,
tanto con y sin conocimiento de los investigadores para poder reportar falsos
positivos en estudios publicados en una gran variedad de revistas científicas
en todo el mundo. El poco o nulo escrutinio que ha existido por parte de esta
comunidad ha hecho que la práctica no sólo sea común, sino que se apoye debido
a la presión que existe por publicar el mayor número de artículos posibles,
para generar interés en las compañías patrocinadoras y en tener la mayor
cantidad de prestigio posible.
Si bien, es poco probable que se elimine por completo
el p-hacking cuando el avance de la carrera se evalúa en función de los
resultados de la publicación, y las decisiones de publicación se ven afectadas
por el valor p u otras medidas de apoyo estadístico para las relaciones. El argumento
se centra a favor de la publicación de todos los resultados obtenidos al final
de un estudio, independientemente de si sean favorables o no para el artículo,
sino para tener una perspectiva total de lo que se analizó y de cómo una mala
interpretación de esto puede llevar a no sólo influenciar futuros trabajos en
el área, sino la política pública de un país entero.
También se considera necesario establecer una relación
entre los lineamientos establecidos por las diversas instituciones regulatorias
y el valor p, para en un futuro encontrar un medio distinto de informar los
resultados de un estudio y poder publicarlos de una forma honesta y ética,
tanto a la comunidad científica como a la población en general.
Además, se analizó desde la perspectiva ética del
absolutismo de Kant, como deben de ser presentados los resultados de forma
completa y transparente, ya que es una forma de actuar siguiendo una máxima
universal y cómo los investigadores no deben ser usados como medio para un fin,
siguiendo el categórico imperativo. También se analizó bajo el utilitarismo
cuestiones más profundas y de un área más gris, ¿qué sucedería si el apoyo de
un proyecto entero se esfumaría si no se cumple con las expectativas del
patrocinador en cuestión?, ¿cómo podría continuar con su carrera académica un
investigador sin caer en una pendiente resbaladiza?
Por último, se estableció como por medio de una ética
dialógica es importante involucrar en la toma de decisión a los diferentes
grupos de interés que pueden resultar afectados, teniendo un especial cuidado
para que la voz de todos los actores involucrados sea escuchada, y así, seguir
una serie de pasos que la comunidad de investigación y los editores científicos
pueden tomar para disminuir la incidencia de la pesca de datos.
De tal modo, con base en las teorías éticas analizadas,
se puede afirmar que el p hacking es una práctica que en la actualidad tiene
implicaciones negativas para la ética y por ende debe de existir una
reformulación de la manera en que esta práctica se lleva acabo, con el fin no
solo de preservar la credibilidad de la comunidad científica, sino el bienestar
de los individuos que recurren a estos estudios como una fuente de información
veraz.
Referencias
Alejandro
Farieta, R. (2019). Deliberación,
deliberación técnica y buena deliberación en la ética aristotélica. Tópicos.
Revista de Filosofía, (56), 11–48. https://0-doi-org.millenium.itesm.mx/10.21555/top.v0i56.991
Blackwell,
A.H. (2004). Review of journal manuscripts: Nasty, petty, arrogant. The
Chronicel Higher Education 46:B10
Cortina,
A. y Martínez, E. (2001). Ética.
Madrid: Akal.
Head
ML, Holman L, Lanfear R, Kahn AT, Jennions MD. (2015). The Extent and
Consequences of P-Hacking in Science. PLOS
Biology 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106
John
LK, Loewenstein G, Prelec D. (2012). Measuring the prevalence of questionable
research practices with incentives for truth telling. Psychol Sci 23: 524–532. pmid:22508865
Jonas, H. (1995). El Principio de Responsabilidad:
ensayo de una ética para la civilización tecnológica. Barcelona: Herder.
Kelly
CD. (2006). Replicating empirical research in behavioural ecology: How and why
it should be done but rarely ever is. The Quarterly Review of Biology 81:
221–236. pmid:17051829
Lariguet,
G. (2016). La gramática profunda del ethos. Una lectura de la ética de Kant. Diánoia, 61(76),
188–196. https://0-doi-org.millenium.itesm.mx/10.21898/dia.v61i76.14
Novoa Jurado, A. J. (2018). Aspectos éticos del
sobrediagnóstico: entre el utilitarismo y la ética de la responsabilidad. Atencion
Primaria, 50(Supplement 2), 13–19.
https://0-doi-org.millenium.itesm.mx/10.1016/j.aprim.2018.07.007
Nuzzo
R. 2014. Scientific Method: Statistical Errors. Nature 506:150-152.
doi:10.1038/506150a
Rachels,
J. (2006). Introducción a la Filosofía
Moral. México:
FCE.
Schneck,
A. (2017). Examining publication bias – A simulation-based evaluation of
statistical tests on publication bias. PeerJ PrePrints,
doi:http://0-dx.doi.org.millenium.itesm.mx/10.7287/peerj.preprints.3059v1
Schwab,
T. (2018). Brian Wansink: Data Masseur, Media Villain, Emblem of a Thornier
Problem. Revista Undark.
Recuperado de: https://undark.org/article/brian-wansink-data-masseur-science/
Simmons
JP, Nelson LD, Simonsohn U. (2011). False-positive psychology: Undisclosed
flexibility in data collection and analysis allows presenting anything as
significant. Psychol Sci 22: 1359–1366. pmid:22006061
Singh,
D. (2019). Stats Experts Plead: Just Say No to P-Hacking. Revista Undark. Recuperado de:
https://undark.org/article/statisticians-p-hacking/
Vergara, F. (2016). P-hacking o la maquila de la
ciencia chatarra. Recuperado de:
http://www.laizquierdadiario.mx/P-hacking-o-la-maquila-de-la-ciencia-chatarra
No hay comentarios:
Publicar un comentario