miércoles, 27 de noviembre de 2019

Gerardo Cano Cárdenas (A01226425)-El p-hacking desde la óptica de la ética

Gerardo Cano Cárdenas
A01226425
El p-hacking desde la óptica de la ética
La influencia que poseen tanto las revistas científicas, como las empresas y centros de investigación que dotan de fondos a los investigadores y sus trabajos, plantea una serie de cuestionamientos éticos que giran alrededor de la presión de publicar estudios de manera casi industrial para contar con la financiación necesaria para realizar investigaciones científicas a expensas de resultados poco reproducibles y que se pueden tomar en un contexto equivocado.
Lo anterior se ha traducido en la viralización de la práctica de p-hacking o pesca de datos. La cual, es un actividad tan usual en la comunidad científica como polémica. Pues, en los últimos años, se han analizado los efectos negativos que ésta ha tenido en una gran cantidad de estudios en todo el mundo, especialmente, en aquellos que han arrojado una importante cantidad de falsos positivos. Esta polémica alcanzó su cúspide cuando en el año 2016, la American Statistical Association (ASA) publicó directrices explícitas sobre cómo evitar la aplicación incorrecta de los valores p (Singh, 2019).
Las opiniones son claramente divergentes: por un lado, la asociación pide que los investigadores reporten los hallazgos independientemente de sus resultados, en lugar de escogerlos y publicar sólo hallazgos positivos y, por otro, los mismos investigadores piden libertad de escoger sus métricas para reportar sus resultados siempre y cuando éstas fuesen debidamente justificadas (Singh, 2019). En contraste, las empresas que dan fondos para estos estudios pueden tener una predisposición de sólo aceptar estudios con resultados positivos que favorezcan a la marca (2019).
Este tema es de vital importancia, ya que, al existir un sesgo en los estudios científicos, los resultados de estos pueden tener un efecto importante en una gran variedad de disciplinas, como la nutrición, la ingeniería, la medicina, las ciencias exactas, entre otras. Es por ello que existe una gran responsabilidad que recae en estos actores para tomar una serie de medidas que aseguren la veracidad y exactitud de los resultados publicados, así como encontrar cursos de acción éticamente correctos para asegurar la dignidad de las personas, pacientes y consumidores que serán afectados.
En este ensayo se argumentará que a pesar de tener una obligación de publicar la mayor cantidad de publicaciones posibles, la práctica de p-hacking debe de ser erradicada ya que, aunque es una forma de medir estadísticamente la existencia o inexistencia de un efecto significativo en un estudio, que sea una métrica confiable y fácilmente utilizada interdisciplinarmente y que existe un estándar definido desde hace muchas décadas sobre su uso, no es éticamente correcto continuar con el uso del p-hacking para fines de publicación si los resultados muestran valores que presentan un falso positivo; asimismo, se defiende que tanto las relaciones inexistentes como las existentes deben de ser publicadas, porque aunque éstas no presenten resultados emocionantes y dignos de atención mediática, presentan un mejor panorama de lo que se estudió. Para ello se analizará por medio de tres visiones, la ética kantiana, el utilitarismo y la ética aristotélica.
Key Words: p-hacking, artículo, categorías, científico, valor p, ética, Kant, utilitarismo, interlocutor válido.
El p-hacking o pesca de datos es definido como “un proceso que supone la comprobación de forma automática de un gran número de hipótesis sobre un único conjunto de datos mediante una exhaustiva búsqueda de combinaciones de variables que podrían mostrar una correlación” (Vergara, 2016). En las ciencias empíricas se utiliza principalmente el umbral de significación del 5%, también conocido como el estándar dorado (Nuzzo 2014, p. 120-122). La diferencia entre 0,049 y 0,051 en la probabilidad de error es marginal. Sin embargo, desde el punto de vista del umbral de significación del 5%, el primero sería un efecto significativo, mientras que el segundo sería un efecto no significativo (Schneck, 2017, p. 4). Es por eso que, cuando se ponen a prueba suficientes hipótesis, es seguro que éstas puedan aparecer como estadísticamente relevantes.
Cuantificar el p-hacking es importante porque la publicación de falsos positivos, no sólo obstaculiza el progreso científico, sino por el impacto que tiene en el comportamiento de los individuos. Cuando los resultados positivos falsos entran en la literatura pueden ser muy persistentes. En muchos campos, hay pocos incentivos para replicar la investigación (Kelly, 2006, p.221-236). Incluso cuando la investigación se repite, los primeros estudios positivos a menudo reciben más atención que los posteriores negativos. Además, los falsos positivos pueden inspirar inversiones en programas de investigación infructuosos, e incluso desacreditar campos enteros (Simmons et al, 2011, p. 1359).
El valor p es fácilmente malinterpretado. Por ejemplo, a menudo se equipara con la fuerza de una relación, pero un pequeño tamaño de efecto puede tener valores p muy bajos con un tamaño de muestra suficientemente grande. Del mismo modo, un valor p bajo no significa que un hallazgo tenga un interés clínico o biológico importante (Head et al, 2015, p.3). Es así que, el uso del p-hacking dentro de los estudios científicos afecta no sólo el resultado de este, sino la percepción del público y de los medios acerca de un efecto que podría ser inexistente.
El caso más reciente de un personaje público que utilizó este tipo de proceso fue el científico Brian Wansink de la Universidad de Cornell en Estados Unidos. Quince de sus estudios fueron removidos de journals científicos debido al uso de pesca de datos, con estudios que sugieren que las personas que compran alimentos con hambre compran más calorías; que pedir el almuerzo antes de comer puede ayudarle a elegir alimentos más sanos; y que servir a la gente en tazones grandes los anima a servirse porciones más grandes (Resnick, 2018).
Él es una de las razones por las que las grandes empresas de alimentación empezaron a ofrecer envases de snacks más pequeños, en porciones de 100 calorías; hasta una vez dirigió el comité de directrices dietéticas del USDA e influyó en la política pública de Estados Unidos (Resnick, 2018). Su influencia antes de ser mundialmente expuesto es innegable, y muestra cómo existe una gran confianza en los estudios científicos aún cuando éstos no han sido debidamente analizados y repetidos, afectando regulaciones que pueden tener grandes ramificaciones en la población, desde su dieta hasta su salud.
En este caso, se podría entender desde un punto de vista utilitarista el porqué es que el p-hacking es tan común. Según Rachels (2006) y Novoa Jurado (2018, p.14), el utilitarismo es aquella corriente ética en donde el bienestar imparcial de la mayoría rige las decisiones. Si se sabe que publicando estudios con resultados dudosos haría que, tanto el investigador cómo la universidad recibiese una cantidad mayor de prestigio, fondos gubernamentales y atención mediática, se podría entender como este efecto podría llevar a qué estos datos fuesen ligeramente modificados para cumplir con este deseo. Es decir, desde el utilitarismo en la comunidad científica, la publicación de falsos positivos encuentra su justificación, pues esta beneficia y potencia la investigación lo que, a larga tendría mejores resultados, alimentando el ciclo de artículos en las publicaciones científicas (Blackwell, 2004, p.3).
En contraste, y según la teoría del categórico imperativo de Kant (2001, p.6) el hombre nunca debe ser usado como un medio para un fin, sino como el fin en sí. No se puede justificar el utilizar datos modificados para llegar a una conclusión deseada o al crecimiento/bienestar de la comunidad científica, ya que los efectos de los estudios van más allá de lo académico, impactando la vida y comportamiento de los individuos, tal es el caso que el artículo de Brian Wansink tuvo un importante impacto en políticas gubernamentales y esto podría haber llevado a una serie de acciones que afectarían de forma grave a la población estadounidense en general, y si no se replicase el experimento, a la población mundial. Así, se comprueba que se están usando a los investigadores como medio para un mayor fondo económico, al priorizar el resultado sobre la investigación. ¿Cuántas veces se han apoyado a proyectos no sólo con financiación sino con material difícil de conseguir por parte de una compañía, proveyendo un apoyo crítico sin el que no se pudiese realizar el estudio?, ¿si el éxito de un proyecto fuese completamente dependiente del resultado positivo del mismo? ¿Existiría alguna solución a largo plazo de esta problemática?
Esto ha llevado a que asociaciones como la ASA debatan acerca de la posibilidad de que los estudios científicos publiquen todos sus hallazgos, aunque estos no lleguen a resultados definitivos y concluyentes (Singh, 2019). Esto seguiría el principio que enuncia Hans Jonas (1995, p.6) acerca del imperativo de actuar de tal manera que los efectos de nuestras acciones sean compatibles con la permanencia de una vida humana auténtica. Si bien, el contraargumento recae en el hecho de que no es posible hacer cambiar a toda la comunidad científica en tan corto plazo de tiempo y que su metodología actual bien podría ser válida, es posible generar un diálogo con interlocutores válidos entre la comunidad de investigadores y la comunidad de estadísticos para desarrollar una serie de lineamientos que puedan ayudar a esclarecer este problema, en línea con la ética dialógica.
La clave para disminuir el p-hacking es una mejor educación de los investigadores. Muchas de las prácticas que conducen al p-hacking todavía se consideran aceptables. John et al. (2012, p.4) midieron la prevalencia de prácticas de investigación cuestionables en psicología. Preguntaron a los participantes de la encuesta si alguna vez habían participado en un conjunto de prácticas de investigación cuestionables y, de ser así, si consideraban que sus acciones eran defendibles en una escala de 0-2 (0 = no, 1 = posiblemente, 2 = sí). Más del 50% de los participantes admitieron "no reportar todas las medidas dependientes de un estudio" y "decidir si recolectar más datos después de ver si los resultados eran significativos", y estas prácticas recibieron una calificación media de defensividad superior a 1,5 (2012, p.5). Esto indica que muchos investigadores incurren en la práctica, pero no aprecian el grado en que esto es una forma de mala conducta científica, ¿por qué cambiar un sistema que aparentemente no está roto?
Debido a las implicaciones éticas que tiene esta práctica, se considera fundamental que las posibles soluciones se enmarcaran dentro de teorías de esta materia, con el fin de contribuir al desarrollo de iniciativas integrales y que respeten a los individuos. En ese sentido, una solución englobaría tanto a los investigadores, cómo a las revistas científicas. Siguiendo la ética aristotélica (Cortina, 2001, p.2; Alejandro Farieta, 2019, p.15) los primeros deberán de cumplir con las normas de análisis tales como: medir sólo las variables de respuesta que se sabe que son importantes, utilizar tamaños de muestra suficientes. mayor énfasis en la calidad de los métodos de investigación y la recolección de datos que en la importancia o novedad de los hallazgos subsiguientes al revisar o evaluar la investigación. Lo ideal es que los métodos se evalúen independientemente de los resultados (Head et al, 2015, p.2). De esta manera, se puede llegar a un balance entre dos extremos, para tener un comportamiento virtuoso, encontrando el equilibrio correcto a través de la aplicación de la razón y la sabiduría en los investigadores.
Las revistas, en cambio, deberán de proporcionar directrices claras y detalladas para la presentación de informes completos sobre los análisis de los datos y los resultados. Por ejemplo, se debe de declarar que es necesario informar sobre los tamaños de los efectos, ya sean pequeños o grandes, reportar todos los valores p con tres decimales, reportar los tamaños de las muestras y, lo que es más importante, ser explícito sobre todo el proceso de análisis (Head, et al, 2015, p.3). Esto reducirá el p-hacking y ayudará a la recopilación de datos para análisis y estudios de data-mining, ya que, si se presenta una transparencia completa en los resultados, se aboga por la práctica correcta como máxima universal, siguiendo los lineamientos del categórico imperativo de Kant, Obrando sólo según una máxima tal que puedas querer al mismo tiempo que se torne ley universal (Rachels, 2012, p.11; Larigeut, 2016, p. 192). Si se es completamente transparente con los resultados, sabiendo de los efectos que tendrá,

CONCLUSIONES
El presente ensayo ha analizado desde una perspectiva ética la práctica del p-hacking y como ésta afecta a las publicaciones científicas. De tal modo, es posible afirmar que el p-hacking ha sido usado, tanto con y sin conocimiento de los investigadores para poder reportar falsos positivos en estudios publicados en una gran variedad de revistas científicas en todo el mundo. El poco o nulo escrutinio que ha existido por parte de esta comunidad ha hecho que la práctica no sólo sea común, sino que se apoye debido a la presión que existe por publicar el mayor número de artículos posibles, para generar interés en las compañías patrocinadoras y en tener la mayor cantidad de prestigio posible.
Si bien, es poco probable que se elimine por completo el p-hacking cuando el avance de la carrera se evalúa en función de los resultados de la publicación, y las decisiones de publicación se ven afectadas por el valor p u otras medidas de apoyo estadístico para las relaciones. El argumento se centra a favor de la publicación de todos los resultados obtenidos al final de un estudio, independientemente de si sean favorables o no para el artículo, sino para tener una perspectiva total de lo que se analizó y de cómo una mala interpretación de esto puede llevar a no sólo influenciar futuros trabajos en el área, sino la política pública de un país entero.
También se considera necesario establecer una relación entre los lineamientos establecidos por las diversas instituciones regulatorias y el valor p, para en un futuro encontrar un medio distinto de informar los resultados de un estudio y poder publicarlos de una forma honesta y ética, tanto a la comunidad científica como a la población en general.
Además, se analizó desde la perspectiva ética del absolutismo de Kant, como deben de ser presentados los resultados de forma completa y transparente, ya que es una forma de actuar siguiendo una máxima universal y cómo los investigadores no deben ser usados como medio para un fin, siguiendo el categórico imperativo. También se analizó bajo el utilitarismo cuestiones más profundas y de un área más gris, ¿qué sucedería si el apoyo de un proyecto entero se esfumaría si no se cumple con las expectativas del patrocinador en cuestión?, ¿cómo podría continuar con su carrera académica un investigador sin caer en una pendiente resbaladiza?
Por último, se estableció como por medio de una ética dialógica es importante involucrar en la toma de decisión a los diferentes grupos de interés que pueden resultar afectados, teniendo un especial cuidado para que la voz de todos los actores involucrados sea escuchada, y así, seguir una serie de pasos que la comunidad de investigación y los editores científicos pueden tomar para disminuir la incidencia de la pesca de datos.
De tal modo, con base en las teorías éticas analizadas, se puede afirmar que el p hacking es una práctica que en la actualidad tiene implicaciones negativas para la ética y por ende debe de existir una reformulación de la manera en que esta práctica se lleva acabo, con el fin no solo de preservar la credibilidad de la comunidad científica, sino el bienestar de los individuos que recurren a estos estudios como una fuente de información veraz.


Referencias
Alejandro Farieta, R. (2019). Deliberación, deliberación técnica y buena deliberación en la ética aristotélica. Tópicos. Revista de Filosofía, (56), 11–48. https://0-doi-org.millenium.itesm.mx/10.21555/top.v0i56.991
Blackwell, A.H. (2004). Review of journal manuscripts: Nasty, petty, arrogant. The Chronicel Higher Education 46:B10
Cortina, A. y Martínez, E. (2001). Ética. Madrid: Akal.
Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD. (2015). The Extent and Consequences of P-Hacking in Science. PLOS Biology 13(3): e1002106. https://doi.org/10.1371/journal.pbio.1002106
John LK, Loewenstein G, Prelec D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci 23: 524–532. pmid:22508865
Jonas, H. (1995). El Principio de Responsabilidad: ensayo de una ética para la civilización tecnológica. Barcelona: Herder.
Kelly CD. (2006). Replicating empirical research in behavioural ecology: How and why it should be done but rarely ever is. The Quarterly Review of Biology 81: 221–236. pmid:17051829
Lariguet, G. (2016). La gramática profunda del ethos. Una lectura de la ética de Kant. Diánoia, 61(76), 188–196. https://0-doi-org.millenium.itesm.mx/10.21898/dia.v61i76.14
Novoa Jurado, A. J. (2018). Aspectos éticos del sobrediagnóstico: entre el utilitarismo y la ética de la responsabilidad. Atencion Primaria, 50(Supplement 2), 13–19. https://0-doi-org.millenium.itesm.mx/10.1016/j.aprim.2018.07.007
Nuzzo R. 2014. Scientific Method: Statistical Errors. Nature 506:150-152. doi:10.1038/506150a
Rachels, J. (2006). Introducción a la Filosofía Moral. México: FCE.
Schneck, A. (2017). Examining publication bias – A simulation-based evaluation of statistical tests on publication bias. PeerJ PrePrints, doi:http://0-dx.doi.org.millenium.itesm.mx/10.7287/peerj.preprints.3059v1
Schwab, T. (2018). Brian Wansink: Data Masseur, Media Villain, Emblem of a Thornier Problem. Revista Undark. Recuperado de: https://undark.org/article/brian-wansink-data-masseur-science/
Simmons JP, Nelson LD, Simonsohn U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol Sci 22: 1359–1366. pmid:22006061
Singh, D. (2019). Stats Experts Plead: Just Say No to P-Hacking. Revista Undark. Recuperado de: https://undark.org/article/statisticians-p-hacking/
Vergara, F. (2016). P-hacking o la maquila de la ciencia chatarra. Recuperado de: http://www.laizquierdadiario.mx/P-hacking-o-la-maquila-de-la-ciencia-chatarra

No hay comentarios:

Publicar un comentario