7 paradojas de datos que debes conocer

Datos, estadísticas, matemáticas, números: estas son cosas exactas, podemos pensar nosotros, pero tengo que decepcionarte: hay muchas paradojas en esta ciencia y debemos ser conscientes de ellas para hacer bien nuestro trabajo y tomar mejores decisiones en nuestra vida cotidiana. Cuantas más cosas sepa, más fácil será detectarlas en el mundo moderno, abrumado por la información.

Aquí les presento 7 paradojas diferentes que existen en ciencia, lógica, estadística y matemáticas para mostrar que no todo está tan claro como parece de vez en cuando.

1. La falacia del fiscal

Imaginemos que estamos en Barcelona en el futuro, donde los científicos inventaron la máquina que puede comparar el ADN y decir si coinciden o no. Estamos en la corte, acusados ​​de crueles asesinatos, porque un ADN encontrado en el arma coincide con el nuestro y no hay otra evidencia. Aunque, estamos bastante seguros de que ese día estábamos horneando galletas en casa. El fiscal afirma que la probabilidad de una coincidencia de este tipo es de 1 de cada 1 millón y con una probabilidad tan baja que definitivamente somos culpables: el ADN de una persona inocente no se habría encontrado en la escena del crimen. Parece que vamos a la cárcel.

Pero, hay un pequeño pero. ¿Cuáles son las posibilidades de que la policía se haya equivocado de chico? Teniendo la probabilidad de un partido 1/1000000 y la población de Barcelona de 5 millones de personas, ahora tenemos 5 personas que pueden ser culpables. ¡Lo que significa que la probabilidad de nuestra inocencia es en realidad más del 80%! El caso se detiene porque necesita más evidencia.

La situación descrita anteriormente se conoce como falacia del fiscal, que es una falacia del razonamiento estadístico que suele utilizar un fiscal para exagerar la probabilidad de la culpabilidad de un acusado penal. El siguiente reclamo demuestra la falacia en el contexto de un fiscal que interroga a un testigo experto: “las probabilidades de encontrar esta evidencia en un hombre inocente son tan pequeñas que el jurado puede ignorar con seguridad la posibilidad de que este acusado sea inocente”. El reclamo oculta que la probabilidad de la inocencia del acusado, dada la evidencia encontrada en él, de hecho depende de las probabilidades previas bastante altas de que el acusado sea una persona inocente al azar, así como las bajas probabilidades declaradas de encontrar la evidencia en tal una persona inocente al azar, sin mencionar las altas probabilidades subyacentes de que la evidencia es realmente indicativa de culpa.

Como puede ver, las personas no entienden el poder del azar ni el poder de los grandes números. Cuando decimos: “Amigo, la mierda que me pasó hoy es probable que suceda una vez cada 10 millones de veces”, no nos damos cuenta de que tal mierda ya pasó 4 veces solo en España (la población del país es de aproximadamente 45 millones ) Por lo tanto, será mucho más extraño cuando no ocurra nada, que algo muy-muy-muy-muy raro.

2. Cuarteto de Anscombe

Los datos pueden ser complicados. Muchas veces decimos que los números no mienten, que los números son precisos, que los números dicen la verdad, etc. Sí, lo es. Todas estas afirmaciones son correctas, pero si interpreta bien esos números, si los explora bien, si los mira desde diferentes ángulos.

Déjame presentarte el cuarteto de Anscombe. Consiste en cuatro conjuntos de datos que tienen estadísticas descriptivas simples casi idénticas, pero tienen distribuciones muy diferentes y parecen muy diferentes cuando se grafican. Cada conjunto de datos consta de once (x, y) puntos. Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de representar gráficamente los datos antes de analizarlos como el efecto de los valores atípicos y otras observaciones influyentes sobre las propiedades estadísticas. Describió el artículo como un intento de contrarrestar la impresión entre los estadísticos de que “los cálculos numéricos son exactos, pero los gráficos son aproximados”.

Las estadísticas básicas para estos conjuntos de datos son casi iguales:

  • Media de X: 9, precisión: exacta
  • Varianza de muestra de X: 11, precisión: exacta
  • Media de Y: 7.50, precisión: hasta 2 decimales
  • Varianza de muestra de Y: 4.125, precisión: + -0.003
  • Correlación entre X e Y: 0.816, precisión: hasta 3 decimales
  • Línea de regresión lineal: Y = 3.00 + 0.500x, precisión: a 2 y 3 decimales
  • Coeficiente de determinación de la regresión lineal: 0.67, precisión: hasta 2 decimales

Como puede ver, numéricamente estos conjuntos de datos son idénticos, pero cuando traza esos puntos de datos se da cuenta de que hay algo sospechoso allí 😉

Es por eso que durante el análisis de datos tenemos que tener en cuenta diferentes variables, hipótesis, diferentes herramientas y enfoques. Porque al mirar algo solo desde un lado, continuaremos viendo lo mismo incluso en datos absolutamente opuestos. O como lo desee, al pensar obstinadamente que siempre tiene la razón y nunca considerar otra opinión, continuará descubriendo que todo es igual y nunca aprenderá nada nuevo. Me parece aburrido.

3. La paradoja de Simpson

Es un fenómeno en probabilidad y estadística, en el cual aparece una tendencia en varios grupos diferentes de datos, pero desaparece o se revierte cuando estos grupos se combinan. En un conjunto agregado de datos llegamos a una conclusión, mientras que si dividimos estos datos en grupos según algunos criterios, terminamos teniendo resultados totalmente opuestos a los de las observaciones anteriores.

Uno de los ejemplos más conocidos de la paradoja de Simpson es un estudio del sesgo de género entre las admisiones a la escuela de posgrado en la Universidad de California, Berkeley. Las cifras de admisión para el otoño de 1973 mostraron que los hombres que solicitaban eran más propensos que las mujeres a ser admitidos, y la diferencia era tan grande que era poco probable que se debiera al azar. Los datos mostraron que el 44% de todos los hombres fueron admitidos, mientras que esta proporción para las mujeres fue solo del 35%.

Imagínese: estos datos se publican, las feministas comienzan sus revueltas, la universidad está en el centro del escándalo. ¡Boooooom!

Al examinar los departamentos individuales, parecía que seis de los 85 departamentos tenían un sesgo significativo contra los hombres, mientras que cuatro tenían un sesgo significativo contra las mujeres. ¡De hecho, los datos agrupados y corregidos mostraron un “sesgo pequeño pero estadísticamente significativo a favor de las mujeres”!

De ninguna manera !! ¡Los hombres fueron discriminados! (sarcasmo e hipérbole)

Más tarde, el trabajo de investigación de Bickel et al. llegó a la conclusión de que las mujeres tendían a postularse a departamentos competitivos con bajas tasas de admisión incluso entre solicitantes calificados (como en el Departamento de Inglés), mientras que los hombres tendían a postularse a departamentos menos competitivos con altas tasas de admisión entre los solicitantes calificados (como en ingeniería y química).

Como puede ver, los hombres son simplemente vagos XD.

Es por eso que es importante ir más allá de los datos, comprender el contexto, encontrar por qué los datos se presentan de esta manera, etc.

Sí, nuestra sociedad tiene muchos problemas, pero al pensar de manera más racional podemos encontrar problemas reales y centrarnos en solucionarlos y no distraernos con datos manipuladores.

4. Falacia de la composición

La falacia de la composición surge cuando uno infiere que algo es cierto del todo por el hecho de que es cierto de alguna parte del todo (o incluso de cada parte adecuada). Por ejemplo: “Este neumático está hecho de goma, por lo tanto, el vehículo del que forma parte también está hecho de goma”. Esto es falaz, porque los vehículos están hechos con una variedad de partes, la mayoría de las cuales no están hechas de goma.

Esta falacia a menudo se confunde con la falacia de la generalización apresurada, en la que se hace una inferencia injustificada de una declaración sobre una muestra a una declaración sobre la población de la que se extrae. Entonces, no, si crees que tu novia / novio es estúpido y, por lo tanto, todas las mujeres / hombres son estúpidos, es una generalización apresurada o, en este caso particular, puede llamarse “falacia del hecho solitario”. Discutiremos esto más tarde.

Ejemplos de falacia de composición:

  • No hay átomos vivos. Por lo tanto, nada hecho de átomos está vivo.
  • Algunas personas pueden convertirse en millonarios con el concepto de negocio adecuado. Por lo tanto, si todos tienen el concepto comercial correcto, todos se convertirán en millonarios.
  • Si un corredor corre más rápido, puede ganar la carrera. Por lo tanto, si todos los corredores corren más rápido, todos pueden ganar la carrera.
  • En economía: el ahorro total puede caer debido a los intentos de las personas de aumentar su ahorro y, en términos generales, ese aumento en el ahorro puede ser perjudicial para la economía (paradoja del ahorro).

5. La paradoja de Berkson

La paradoja de Berkson, también conocida como el sesgo de Berkson o la falacia de Berkson, es el resultado de la probabilidad condicional y las estadísticas que a menudo se consideran contradictorias y, por lo tanto, una paradoja verídica. El ejemplo más común de la paradoja de Berkson es una observación falsa de una correlación negativa entre dos rasgos positivos, es decir, que los miembros de una población que tienen algún rasgo positivo tienden a carecer de un segundo. La paradoja de Berkson ocurre cuando esta observación parece verdadera cuando en realidad las dos propiedades no están relacionadas, o incluso están positivamente correlacionadas, porque los miembros de la población donde ambos están ausentes no son igualmente observados.

Para mí, lo mejor esta paradoja está descrita por Jordan Ellenberg, autor del libro “Cómo no equivocarse” (lectura fabulosa, totalmente recomendable).

Supongamos que eres una persona que sale con hombres. Es posible que haya notado que, entre los hombres en su grupo de citas, los guapos tienden a no ser amables, y los amables tienden a no ser guapos. ¿Es porque tener una cara simétrica te hace cruel? ¿Significa que ser amable con la gente te hace feo? Bueno, podría ser. Pero no tiene que ser así.

Ahora, tomemos como hipótesis de trabajo que los hombres están equidistribuidos en un cuadrado (arriba). En particular, hay amables guapos, amables feos, guapos malos y feos malos, en números aproximadamente iguales.

Pero la amabilidad y la belleza tienen un efecto común: ponen a estos hombres en el grupo de personas que notas. Sé honesto: los feos malos son los que nunca consideras. Entonces, dentro del Gran Cuadrado hay un Triángulo más pequeño de hombres aceptables, como en la imagen arriba.

Ahora la fuente de la paradoja es clara: nuestra fuente de datos está sesgada. Los hombres más guapos en el triángulo, en promedio, son tan amables como la persona promedio en toda la población, lo cual, admitámoslo, no es taaan amable. Los hombres más amables son solo medio guapos. La correlación negativa entre apariencia y personalidad en su grupo de citas es absolutamente real. Pero todo esto, porque no ve todo el conjunto de datos. Y la relación no es casual.

6. Generalización apresurada

Generalización. Todos somos pecadores en este de vez en cuando.

En lógica y razonamiento, una generalización defectuosa es una conclusión hecha sobre todas o muchas instancias de un fenómeno, que se ha alcanzado sobre la base de una o algunas instancias de ese fenómeno. Es un ejemplo de saltar a conclusiones. Por ejemplo, uno puede generalizar sobre todas las personas o todos los miembros de un grupo, en función de lo que saben sobre una o unas pocas personas:

  • Si uno se encuentra con una persona enojada de un determinado país X, puede sospechar que la mayoría de las personas en el país X a menudo están enojadas.
  • Si uno solo ve cisnes blancos, puede sospechar que todos los cisnes son blancos.

Las generalizaciones defectuosas pueden llevar a conclusiones incorrectas adicionales. Uno puede, por ejemplo, concluir que los ciudadanos del país X son genéticamente inferiores, o que las personas de la raza Y tienen un mejor sentido del humor.

Estas son las cosas que debe tener en cuenta al analizar los datos: si una estrategia funcionó en una situación particular, no significa que funcionará en todas ellas. Sí, existe la posibilidad de que tal cosa suceda, pero después de un intento no puede estar seguro y comenzar a vender un curso digital que dice que esta estrategia funciona y es la mejor. Parece tan obvio, la necesidad de encontrar suficiente evidencia para demostrar que algo funciona, pero igual, mucha gente todavía cree que todas las personas de países post-soviéticos beben vodka todos los días y nunca se emborrachan, que todos los españoles hacen la siesta todos los días y todos los ingleses beben solo té con leche.

7. Fenómeno de Will Rogers

Para describir esto, citaré a una persona que creo que no pensó mucho antes de decir esas palabras (o realmente pensó mucho), señor Rob Muldoon: “Los neozelandeses que emigran a Australia elevan el coeficiente intelectual de ambos países”.

Uno pensaría, ¿cómo demonios es eso posible? Bueno, te explicaré ahora y entenderás que la cita anterior es un poco insultante. Solo un poco 😏.

El fenómeno Will Rogers se obtiene cuando mover un elemento de un conjunto a otro aumenta los valores promedio de ambos conjuntos. Se basa en la siguiente cita, atribuida (quizás incorrectamente) al comediante Will Rogers: “Cuando los Okies dejaron Oklahoma y se mudaron a California, elevaron el nivel promedio de inteligencia en ambos estados”. Ya ves a dónde va, ¿no? 😉

El efecto ocurrirá cuando se cumplan ambas condiciones:

  • El elemento que se mueve está por debajo del promedio de su conjunto actual. Eliminarlo, por definición, elevará el promedio de los elementos restantes.
  • El elemento que se mueve está por encima del promedio actual del conjunto al que está ingresando. Agregarlo al nuevo conjunto, por definición, elevará el promedio.

¿Todavía estás perdido? Considere este ejemplo ilustrativo con dos listas:
R = {1,2}
S = {99, 10,000, 20 000}

Encuentre la media aritmética de ambas listas. Ahora mueva 99 de S a R y encuentre la media nuevamente. ¿Lo tienes?

Ahora reconsidera ambas citas y ten un gran día 😁

Espero que hayas disfrutado de esta lista de paradojas como lo hice yo cuando les descubrí por primera vez y espero que ahora entiendas cuán difíciles pueden ser los datos y nuestra interpretación de ellos. ¡Así que watch out!

Leave a Reply

Your email address will not be published. Required fields are marked *