Falacia de la frecuencia base

La falacia de la frecuencia base, también llamada negligencia de frecuencia o sesgo de la frecuencia base, es una falacia formal. Consiste en que si se le presenta a la mente información de frecuencia base (es decir, información general sobre la prevalencia) e información específica (es decir, información que pertenece solo a un caso específico), la mente tiende a ignorar la información general y enfocarse en la particular.^[1] La paradoja del falso positivo es un ejemplo de falacia de la frecuencia base.

La negligencia de la frecuencia base es una forma específica de negligencia de extensión.

Muchos responderían hasta un 95%, pero la probabilidad correcta es de alrededor del 2%.

Una explicación para esto es la siguiente: en promedio, por cada 1,000 conductores probados,

Por lo tanto, la probabilidad de que uno de los conductores entre los 1 + 49.95 = 50.95 resultados positivos de la prueba realmente esté ebrio es ${displaystyle 1/50.95approx 0.019627}$ .

La validez de este resultado, sin embargo, depende de la validez de la suposición inicial de que el oficial de policía detuvo al conductor realmente al azar, y no debido a una mala conducción. Si existiera esa u otra razón no arbitraria para detener al conductor, entonces el cálculo también involucra la probabilidad de que un conductor ebrio conduzca de manera competente y un conductor no ebrio conduzca (de manera no) competente.

Más formalmente, se puede establecer la misma probabilidad de aproximadamente 0.02 usando el teorema de Bayes . El objetivo es encontrar la probabilidad de que el conductor esté ebrio dado que el alcoholímetro indicó que está ebrio, lo que se puede representar como

donde D significa que el alcoholímetro indica que el conductor está ebrio. El teorema de Bayes nos dice que

Se nos dijo lo siguiente en el primer párrafo:

Como puede ver en la fórmula, se necesita p ( D ) para el teorema de Bayes, que se puede calcular a partir de los valores anteriores usando la ley de probabilidad total :

Conectando estos números al teorema de Bayes, uno encuentra que

Imaginemos una ciudad de 1 millón de habitantes en la que haya 100 terroristas y 999.900 no terroristas. Para simplificar el ejemplo, se asume que todas las personas presentes en la ciudad son habitantes. Por lo tanto, la probabilidad de frecuencia base de que un habitante de la ciudad seleccionado al azar sea un terrorista es 0,0001; y la probabilidad de frecuencia base de que ese mismo habitante sea un no terrorista es 0,9999. En un intento por atrapar a los terroristas, la ciudad instala un sistema de alarma con una cámara de vigilancia y un software de reconocimiento facial automático.

El software tiene dos tasas de falla del 1 %:

Supongamos ahora que un habitante dispara la alarma. ¿Cuál es la probabilidad de que la persona sea un terrorista? En otras palabras, ¿cuál es P (T | B), la probabilidad de que se haya detectado a un terrorista dado el toque de la campana? Alguien que cometa la 'falacia de la frecuencia base' inferiría que existe un 99 % de posibilidades de que la persona detectada sea un terrorista. Aunque la inferencia parece tener sentido, en realidad es un mal razonamiento, y un cálculo a continuación mostrará que las posibilidades de que sea un terrorista en realidad están cerca del 1 %, no cerca del 99 %.

La falacia surge de confundir la naturaleza de dos tasas de falla diferentes. El 'número de no-campanadas por cada 100 terroristas' y el 'número de no-terroristas por cada 100 campanas' son cantidades no relacionadas. Uno no es necesariamente igual al otro, y ni siquiera tienen que ser casi iguales. Para mostrar esto, considere lo que sucede si se instala un sistema de alarma idéntico en una segunda ciudad sin ningún terrorista. Como en la primera ciudad, la alarma suena para 1 de cada 100 habitantes no terroristas detectados, pero a diferencia de la primera ciudad, la alarma nunca suena para un terrorista. Por lo tanto, el 100 % de todas las ocasiones en que suena la alarma son para no terroristas, pero ni siquiera se puede calcular una tasa de falsos negativos. El 'número de no terroristas por cada 100 campanas' en esa ciudad es 100, pero P (T | B) = 0%. Hay cero posibilidades de que se haya detectado a un terrorista dado el toque de la campana.

Imagine que la población total de la primera ciudad de un millón de personas pasa frente a la cámara. Aproximadamente 99 de los 100 terroristas activarán la alarma, y también lo harán unos 9,999 de los 999.900 no terroristas. Por tanto, unas 10.098 personas dispararán la alarma, entre las que unas 99 serán terroristas. Entonces, la probabilidad de que una persona que active la alarma sea realmente un terrorista, es de solo 99 en 10.098, que es menos del 1 % y muy, muy por debajo de nuestra estimación inicial del 99 %.

La falacia de la frecuencia base es tan engañosa en este ejemplo porque hay muchos más no terroristas que terroristas, y el número de falsos positivos (no terroristas escaneados como terroristas) es mucho mayor que los verdaderos positivos (el número real de terroristas) .

En experimentos, se ha descubierto que la gente prefiere individualizar la información sobre la información general cuando la primera está disponible. ^[2] ^[3] ^[4]

En algunos experimentos, se pidió a los estudiantes que estimaran los promedios de calificaciones (GPA) de estudiantes hipotéticos. Cuando se les dan estadísticas relevantes sobre la distribución del GPA, los estudiantes tienden a ignorarlas si se les da información descriptiva sobre el estudiante en particular, incluso si la nueva información descriptiva era obviamente de poca o ninguna relevancia para el desempeño escolar. ^[3] Este hallazgo se ha utilizado para argumentar que las entrevistas son una parte innecesaria del proceso de admisión a la universidad porque los entrevistadores no pueden elegir candidatos exitosos mejor que las estadísticas básicas.

Los psicólogos Daniel Kahneman y Amos Tversky intentaron explicar este hallazgo en términos de una regla simple o "heurística" llamada representatividad . Argumentaron que muchos juicios relacionados con la probabilidad, o con la causa y efecto, se basan en cuán representativa es una cosa de otra o de una categoría. ^[3] Kahneman considera que el abandono de la frecuencia base es una forma específica de abandono de la extensión . ^[5] Richard Nisbett ha argumentado que algunos sesgos de atribución, como el error de fundamental de atribución, son ejemplos de la falacia de la frecuencia base: la gente no usa la "información de consenso" (la "frecuencia base") sobre cómo otros se comportaron en situaciones similares y prefieren atribuciones disposicionales más simples . ^[6]

Existe un debate considerable en psicología sobre las condiciones bajo las cuales las personas aprecian o no la información de frecuencia base. ^[7] ^[8] Los investigadores del programa de heurística y sesgos han enfatizado los hallazgos empíricos que muestran que las personas tienden a ignorar las tasas base y hacer inferencias que violan ciertas normas de razonamiento probabilístico, como el teorema de Bayes . La conclusión extraída de esta línea de investigación fue que el pensamiento probabilístico humano es fundamentalmente defectuoso y propenso a errores. ^[9] Otros investigadores han enfatizado el vínculo entre los procesos cognitivos y los formatos de información, argumentando que tales conclusiones generalmente no están justificadas. ^[10] ^[11]

Considere nuevamente el ejemplo 2 anterior. La inferencia requerida es estimar la probabilidad (posterior) de que un conductor (elegido al azar) esté ebrio, dado que la prueba del alcoholímetro es positiva. Formalmente, esta probabilidad se puede calcular utilizando el teorema de Bayes, como se muestra arriba. Sin embargo, existen diferentes formas de presentar la información relevante. Considere la siguiente variante formalmente equivalente del problema:

En este caso, la información numérica relevante — p (ebrio), p ( D | ebrio), p ( D | sobrio) - se presenta en términos de frecuencias naturales con respecto a una determinada clase de referencia (ver problema de clase de referencia ). Los estudios empíricos muestran que las inferencias de las personas se corresponden más estrechamente con la regla de Bayes cuando la información se presenta de esta manera, lo que ayuda a superar la negligencia de la frecuencia base en las personas comunes ^[11] y los expertos. ^[12] Como consecuencia, organizaciones como la Colaboración Cochrane recomiendan usar este tipo de formato para comunicar estadísticas de salud. ^[13] Enseñar a las personas a traducir este tipo de problemas de razonamiento bayesiano en formatos de frecuencia natural es más eficaz que simplemente enseñarles a introducir probabilidades (o porcentajes) en el teorema de Bayes. ^[14] También se ha demostrado que las representaciones gráficas de frecuencias naturales (por ejemplo, matrices de iconos) ayudan a las personas a hacer mejores inferencias. ^[15] ^[16]

¿Por qué son útiles los formatos de frecuencia natural? Una razón importante es que este formato de información facilita la inferencia requerida porque simplifica los cálculos necesarios. Esto se puede ver cuando se usa una forma alternativa de calcular la probabilidad requerida p (ebrio | D ):

donde N (ebrio ∩ D ) denota el número de conductores que están ebrios y obtienen un resultado positivo en el alcoholímetro, y N ( D ) indica el número total de casos con un resultado positivo en el alcoholímetro. La equivalencia de esta ecuación a la anterior se deriva de los axiomas de la teoría de la probabilidad, según los cuales N (ebrios ∩ D ) = N × p ( D | ebrio) × p (ebrio). Es importante destacar que, aunque esta ecuación es formalmente equivalente a la regla de Bayes, no es psicológicamente equivalente. El uso de frecuencias naturales simplifica la inferencia porque la operación matemática requerida se puede realizar en números naturales, en lugar de fracciones normalizadas (es decir, probabilidades), porque hace que la gran cantidad de falsos positivos sea más transparente y porque las frecuencias naturales exhiben una "estructura de conjunto anidado". ^[17] ^[18]

No todos los formatos de frecuencia facilitan el razonamiento bayesiano. ^[18] ^[19] Las frecuencias naturales se refieren a la información de frecuencia que resulta del muestreo natural, ^[20] que preserva la información de la frecuencia base (por ejemplo, el número de conductores ebrios cuando se toma una muestra aleatoria de conductores). Esto es diferente del muestreo sistemático, en el que las tasas base se fijan a priori (por ejemplo, en experimentos científicos). En el último caso, no es posible inferir la probabilidad posterior p (ebrio | prueba positiva) al comparar el número de conductores que están ebrios y dan positivo en la prueba con el número total de personas que obtienen un resultado positivo en el alcoholímetro, porque la información de frecuencia base no se conserva y debe reintroducirse explícitamente utilizando el teorema de Bayes.

Escribe un comentario o lo que quieras sobre Falacia de la frecuencia base (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!