Historia de la estadística

Se puede afirmar que la Historia de la estadística comienza de una quinta alrededor de 1549, aunque con el tiempo, ha habido cambios en la interpretación de la palabra "estadística". En un principio, el significado estaba restringido a la información acerca de los estados. Este fue extendido posteriormente para incluir toda colección de información de cualquier tipo, y más tarde fue extendido para incluir el análisis e interpretación de los datos. En términos modernos, "estadística" significa tanto conjuntos de información recopilada, por ejemplo registros de temperatura, contabilidad nacional, como trabajo analítico que requiera Estadística inferencial|inferencia estadístico

[[]]

En el siglo XIV el término "estadística" designaba la colección sistemática de datos demográficos y económicos por los estados. A principios del siglo XIX, el significado de "estadística" fue ampliado para incluir la disciplina ocupada de recolectar, resumir y analizar los datos. Hoy la estadística es ampliamente usada en el gobierno, los negocios y todas las ciencias. Las computadoras electrónicas han acelerado la estadística computacional y ha permitido a los estadísticos el desarrollo de métodos que usan recursos informáticos intensivamente.

El término "estadística matemática" designa las teorías matemáticas de la probabilidad e inferencia estadística, las cuales son usadas en la estadística aplicada. La relación entre estadística y probabilidades se fue desarrollando con el tiempo. En el siglo XIX, las estadísticas usaron de forma gradual la teoría de probabilidades, cuyos resultados iniciales fueron encontrados en los siglos XVII y XXI, particularmente en el análisis de los juegos de azar (apuestas). Para 1600, la astronomía usaba modelos probabilísticos y teorías estadísticas, particularmente el método de los mínimos cuadrados, el cual fue inventado por Legendre y Gauss. La incipiente teoría de las probabilidades y estadísticas fue sistematizada y extendida por Laplace; después de este, las probabilidades y estadísticas han experimentado un continuo desarrollo. En el siglo XIX, el razonamiento estadístico y los modelos probabilísticos fueron usados por las ciencias sociales para el avance las nuevas ciencias de psicología experimental y sociología, y por las ciencias físicas en termodinámica y mecánica estadística. El desarrollo del razonamiento estadístico estuvo fuertemente relacionado con el desarrollo de la lógica inductiva y el método científico.

La estadística puede ser considerada no como una rama de las matemáticas, sino como una ciencia matemática autónoma, como las ciencias de la computación y la investigación de operaciones. A diferencia de las matemáticas, la estadística tuvo sus orígenes en la administración pública. Fue usada en la demografía y la economía. Con el énfasis en el aprendizaje de los datos y en la elaboración de las predicciones más acertadas, la estadística se ha solapado con la teoría de la decisión y la microeconomía. Con el enfoque de los datos, la estadística se ha solapado con la ciencia de la información y las ciencias de la computación.

El término «estadística», en última instancia, deriva la palabra del neolatín statisticum collegium (consejo de estado) y la palabra italiana statista (‘hombre de estado’ o político). La palabra alemana statistik, introducida primeramente por Godofredo Achenwall (1749), originalmente designaba el análisis de datos acerca del estado, significando la ‘ciencia del estado’ (llamado posteriormente «aritmética política» en idioma inglés). A principios del siglo XIX, adquirió el significado de colección y clasificación de datos. El término fue introducido en Inglaterra en 1792 por sir John Sinclair cuando publicó el primero de los 21 volúmenes titulados Statistical account of Scotland.^[1]

De esta forma, el propósito original principal de la statistik eran los datos usados por el gobierno y los cuerpos administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa, en mayor parte a través de servicios estadísticos nacionales e internacionales. En particular, los censos proveen frecuentemente información actualizada acerca de la población.

El primer libro en tener ‘estadísticas’ en su título fue “Contributions to Vital Statistics” por Francis GP Neison, registrado a la Medical Invalid and General Life Office (1 era edición 1845, 2nda ed. 1846, 3.ª ed. 1857).^{[cita requerida]}

El uso de los métodos estadísticos se remonta al menos al siglo V a. C. El historiador Tucídides en su Historia de la Guerra del Peloponeso^[2] describe como los atenienses calculaban la altura de la muralla de Platea, contando el número de ladrillos de una sección expuesta de la muralla que estuviera lo suficientemente cerca como para contarlos. El conteo era repetido varias veces por diferentes soldados. El valor más frecuente (la moda en términos más modernos) era tomado como el valor del número de ladrillos más probable. Multiplicando este valor por la altura de los ladrillos usados en la muralla les permitía a los atenienses determinar la altura de las escaleras necesarias para trepar las murallas.

En el poema épico indio Majabhárata (libro 3: la historia del rey Nala), el rey Ritupama estimaba el número de frutas y hojas (2095 frutas y 50,00,000 hojas (5 crores)) en dos grandes hojas de un árbol Vibhitaka contándolos en un solo vástago. Este número era luego multiplicado por el número de vástagos en las ramas. Este estimado fue posteriormente verificado y se halló que estaba muy cerca del número verdadero. Con el conocimiento de este método Nala pudo subsecuentemente reconquistar su reino.

El primer escrito de estadística fue encontrado en un libro del siglo IX titulado Manuscrito sobre el descifrado de mensajes criptográficos, escrito por Al-Kindi (801-873). En su libro, Al-Kindi da una descripción detallada sobre el uso de las estadísticas y análisis de frecuencias en el descifrado de mensajes, este fue el nacimiento tanto de la estadística como del criptoanálisis.^[3]^[4]

La Prueba del Pyx es una prueba de pureza de la moneda del Royal Mint, que ha sido llevada a cabo regularmente desde el siglo XII. La prueba en sí misma está basada en métodos de muestreo estadístico. Después de acuñar una serie de monedas ―originalmente de 10 libras de plata― una moneda singular era colocada en el Pyx (una caja en la Abadía de Westminster). Después de un tiempo ―ahora una vez al año― las monedas son retiradas y pesadas. Luego, una muestra de monedas retiradas de la caja es probada por pureza.

La Nuova Crónica, una historia de Florencia del siglo XIV escrita por el banquero florentino y oficial Giovanni Villani, incluye mucha información estadística.sobre la población, ordenanzas, comercio, educación y edificaciones religiosas, y ha sido descrito como la primera introducción de la estadística como elemento positivo en la historia,^[5] aunque ni el término ni el concepto de la estadística como campo específico existía aún. Esto se demostró que era incorrecto después del hallazgo del libro de Al-Kindi sobre análisis de frecuencias.^[3]^[4]

Aunque era un concepto conocido por los griegos, la media aritmética no fue generalizada a más de dos valores hasta el siglo 16. La invención del sistema decimal por Simon Stevin en 1585 parece haber facilitado estos cálculos. Este método fue adoptado por primera vez en astronomía por Tycho Brahe, el que intentaba reducir errores en sus estimados de las localizaciones de varios cuerpos celestiales.

La idea de la mediana se originó en el libro de navegación de Edward Wright (Certaine errors in navigation) en 1599 en una sección concerniente a la determinación de una localización con un compás. Wright sintió que este valor era el que más probablemente estuviera correcto en una serie de observaciones.

John Graunt en su libro Natural and Political Observations Made upon the Bills of Mortality, estimó la población de Londres en 1662 a través de registros parroquiales. Él sabía que había cerca de 13,000 funerales al año en Londres y que de cada once familias tres personas morían por año. Estimó de los registros parroquiales que el tamaño promedio de las familias era 8 y calculó que la población de Londres era de cerca de 384 000. Laplace en 1802 estimó la población de Francia con un método similar.

Los métodos matemáticos de la estadística surgieron de la teoría de probabilidades, la cual tiene sus raíces en la correspondencia entre Pierre de Fermat y Blaise Pascal (1654). Christiaan Huygens (1657) proveyó el primer tratamiento científico sobre el tema que se conozca hasta la fecha. El libro Ars Conjectandi de Jakob Bernoulli (póstumo 1713) y La doctrina de las probabilidades (1718) de Abraham de Moivre trataron el tema como una rama de las matemáticas. En su libro, Bernoulli introdujo la idea de representar certeza completa como el número 1 y la probabilidad como un número entre cero y uno.

Galileo luchó contra el problema de errores en las observaciones y había formulado ambiguamente el principio de que los valores más probables de cantidades desconocidas serían aquellos que hicieran los errores en las ecuaciones razonablemente pequeños. El estudio formal en teoría de errores puede ser originado en el libro de Roger Cotes (Opera Miscellanea, póstumo 1750). Tobias Mayer, en su estudio de los movimientos de la Luna (Kosmographische Nachrichten, Núremberg, 1750), inventó el primer método formal para estimar cantidades desconocidas generalizando el promedio de las observaciones bajo circunstancias idénticas al promedio de los grupos de ecuaciones similares.

Un primer ejemplo de lo que posteriormente fue conocido como la curva normal fue estudiado por Abraham de Moivre, quien trazó esta curva en noviembre 12, 1733.^[6] De Moivre estaba estudiando el número de caras que ocurrían cuando una moneda “justa” era lanzada.

En sus memorias ―Un intento por mostrar la emergente ventaja de tomar la media de un número de observaciones en astronomía práctica― preparada por Thomas Simpson en 1755 (impreso en 1756) aplicaba por primera vez la teoría a la discusión de errores en observaciones. La reimpresión (1757) de sus memorias sostiene el axioma que errores positivos y negativos son igualmente probables, y que hay ciertos valores límites dentro de los cuales todos los errores se encuentran; los errores continuos son discutidos y se provee una curva de probabilidad. Simpson discutió varias posibles distribuciones de error. Primero consideró la distribución uniforme y después la distribución triangular discreta simétrica, seguida por la distribución triangular continua simétrica.

Ruder Boškovic en 1755 se basó en su trabajo sobre la forma de la Tierra propuesto en el libro De litteraria expeditione per pontificiam ditionem ad dimetiendos duos meridiani gradus a PP. Maire et Boscovicli para proponer que el verdadero valor de una serie de observaciones sería aquel que minimizara la suma de los errores absolutos. En terminología moderna este valor es la media.

Johann Heinrich Lamber en su libro de 1765 Anlage zur Architectonic propuso el semicírculo como una distribución de errores:

con –1 = x = 1.

Pierre-Simon Laplace (1774) hizo su primer intento de deducir una regla para la combinación de observaciones desde los principios de la teoría de las probabilidades. El representó la ley de a probabilidad de errores mediante una curva y dedujo una fórmula para la media de tres observaciones.

Laplace en 1774 notó que la frecuencia de un error podía ser expresada como una función exponencial de su magnitud una vez descartado el signo.^[7]^[8] Esta distribución es ahora conocida como distribución de Laplace.

con -1 = x = 1.

Laplace en 1778 publicó su segunda ley de errores en la cual notó que la frecuencia de un error era proporcional a la función exponencial del cuadrado de su magnitud. Esto fue descubierto subsecuentemente por Gauss (posiblemente en 1797) y es ahora mejor conocida como distribución normal, la cual es de importancia central en la estadística.^[9] Esta distribución fue referida como «normal» por primera vez por Pierce en 1873, quien estaba estudiando las medidas de error cuando un objeto era dejado caer sobre una superficie de madera.^[10] Escogió el término «normal» debido a su ocurrencia frecuente en variables que ocurrían en la naturaleza.

Lagrange también sugirió en 1781 otras dos distribuciones para errores ―una distribución coseno―:

con -1 = x = 1 y una distribución logarítmica

con -1 = x = 1 donde || es el --valor absoluto-- de x.

Laplace obtuvo una fórmula (1781) para la ley de facilidad de un error (un término acuñado por Joseph Louis Lagrange, 1774), pero esta conllevaba a ecuaciones inmanejables. Daniel Bernoulli (1778) introdujo el principio del máximo producto de las probabilidades de un sistema de errores concurrentes.

Laplace, en una investigación del movimiento de Saturno y Júpiter en 1787, generalizó el método de Mayer usando diferentes combinaciones lineales de un grupo de ecuaciones.

En 1802 Laplace estimó la población en Francia a 28,328,612.^[11] Él calculó este número usando la cantidad de nacimientos del año anterior y el dato del censo de tres comunidades. Los datos de los censos de estas comunidades mostraron que tenían 2,037,615 personas y que el número de nacimientos era de 71,866. Suponiendo que estas muestras eran representativas de Francia, Laplace produjo un estimado para la población entera.

El método de los mínimos cuadrados, el cual era usado para minimizar errores en la medición de datos, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809).Gauss había usado el método en su famosa predicción en 1801 de la localización del planeta enano Ceres. Las observaciones en las que Gauss basó sus cálculos fueron hechas por el monje italiano Piazzi. Posteriormente se dieron demostraciones por Laplace (1810, 1812), Gauss (1823), Ivory (1825, 1826), Hagen (1837), Bessel (1838), Donkin (1844, 1856), Herschel (1850), Crofton (1870), y Thiele (1880, 1889).

El término «error probable» (der wahrscheinliche Fehler) ―la desviación media― fue introducido en 1815 por el astrónomo alemán Frederik Wilhelm Bessel.

Antoine Augustin Cournot en 1843 fue el primero en usar el término «mediana» (valeur médiane) para el valor que divide la distribución de probabilidad en dos mitades iguales.

Otros contribuyentes a la teoría de errores fueron Ellis (1844), De Morgan (1864), Glaisher (1872), y Giovanni Schiaparelli (1875).^{[cita requerida]} La fórmula de Peters (1856) para ${displaystyle r}$ , el "error probable" de una sola observación fue ampliamente usada e inspiró tempranamente la estadística robusta (resistente a valores atípicos: ver criterio de Peirce).

En el siglo 19 los autores de la teoría estadística incluían a Laplace, S. Lacroix (1816), Littrow (1833), Dedekind (1860), Helmert (1872), Laurant (1873), Liagre, Didion, De Morgan, Boole, Edgeworth,^[12] y K. Pearson.^[13]

Gustav Theodor Fechner usó la mediana (centralwerth) en fenómenos sociológicos y sociológicos.^[14] Anteriormente había sido usado solamente en astronomía y campos relacionados.

Las primeras pruebas de la distribución normal fueron inventadas por el estadístico alemán Wilhelm Lexis en 1870. El único conjunto de datos disponible para él, en que le era posible mostrar que estaba normalmente distribuido, era la frecuencia de nacimientos.

Francis Galton estudió una variedad de características humanas ―altura, edad, peso, tamaño de las pestañas, entre otras― y encontró que muchos de estos factores podían ser ajustados a una distribución normal.^[15]

Francis Galton en 1907 entregó un artículo a la revista Nature acerca de la utilidad de la mediana.^[16] El examinó la precisión de 787 intentos de adivinar el peso de un buey en una feria de campo. El peso real era de 1208: la mediana de todas las conjeturas fue 1198 libras. Las conjeturas fuern marcadamente no normales en su distribución.

El noruego Anders Nicolai Kiær introdujo el concepto de muestreo estratificado en 1895.^[17] Arthur Lyon Bowley introdujo el muestreo aleatorio en 1906. [20] Jerzy Neyman en 1934 hizo evidente que el muestreo aleatorio estratificado era en general un mejor método de estimación que el muestreo intencional (por cuota).^[18]

El nivel de significación del 5 % parece ser introducido por Fisher en 1925.^[19] Fisher expresó que las desviaciones que excedían dos veces la desviación estándar eran consideradas significativas. Previamente a esto las desviaciones que excedían tres veces el error probable eran consideradas significativas. Para una distribución simétrica el error probable la mitad del rango intercuantil. El cuantil superior de la distribución normal estándar está entre 0.66 y 0.67, su error probable es aproximadamente 2/3 de la desviación estándar. Parece que el criterio de Fisher del 5% tenía sus raíces en la práctica previa.

En 1929 Wilso y Hilferty re-examinaron los datos de Pierce de 1873 y descubrieron que en realidad no estaba realmente normalmente distribuida.^[20]

Ver Ian Hacking's The emergence of probability^[21] and James Franklin's The science of conjecture: evidence and probability before Pascal^[22] para historias del desarrollo del concepto de probabilidad matemática. En la era moderna, el trabajo de Andréi Kolmogórov ha sido imprescindible para la formulación del modelo fundamental de Teoría de Probabilidades.^[23]

Charles S. Peirce (1839-1914) formuló teorías frecuentistas de estimación y prueba de hipótesis (1877-1878) y (1883), cuando introdujo la “confianza”. Pierce también introdujo experimentos aleatorios controlados y a ciegas con diseño de medidas repetidas.^[24] Pierce inventó un diseño óptimo para experimentos sobre gravedad.

El término "bayesiano" se refiere a Thomas Bayes (1702 – 1761), quién probó un caso especial de lo que se conoce hoy como Teorema de Bayes. Sin embargo fue Pierre-Simon Laplace (1749–1827) quien introdujo una visión general del teorema y lo aplicó a mecánica celeste, estadísticas médicas, confiabilidad y jurisprudencia. Cuando el conocimiento disponible era insuficiente para especificar una prior informada, Laplace usaba priores uniformes, de acuerdo a su principio de razón insuficiente.^[25] Laplace asumió priores uniformes más por claridad matemática que por razones filosóficas.^[25] Laplace también introdujo versiones primitivas de priores conjugadas y el teorema de von Mises y Bernstein, de acuerdo a los cuales, las posteriores correspondientes a priores inicialmente diferentes convergen asintóticamente con el crecimiento del número de observaciones.^[26] Esta temprana inferencia bayesiana, que usaba priores uniformes de acuerdo con el principio de Laplace de razón insuficiente, fue llamado “probabilidad inversa” (debido a su inferencia hacia atrás desde las observaciones a los parámetros, o de efectos a causas).^[27]).

Después de los años veinte, la probabilidad inversa fue suplantada en su mayoría por una colección de métodos desarrollados por Ronald A. Fisher, Jerzy Neyman y Egon Pearson. Sus métodos fueron llamados estadística frecuentista.^[27] Fisher rechazó el enfoque bayesiano, escribiendo que “la teoría de la probabilidad inversa está fundada sobre un error, y debe ser rechazada por completo”.^[28] Al final de su vida, sin embargo, Fisher expresó un gran respeto por los ensayos de Bayes, los cuales Fisher creía que habían anticipado su propio enfoque fiducial a la probabilidad; Fisher aún mantenía que la visión de Laplace de las probabilidades era “sinsentido falaz”.^[28] Neyman comenzó como un “cuasibayesiano”, pero con el tiempo desarrolló los intervalos de confianza (un método clave estadísticas frecuentistas) porque “la teoría completa sería mejor si estuviera construida desde el comienzo sin referencia al bayesianismo y las priores”.^[29] La palabra bayesiano apareció en 1930 y para 1960 se convirtió en el término preferido por aquellos que no estaban satisfechos con las limitaciones de las estadísticas frecuentistas.^[27]^[30]

En el siglo XX, las ideas de Laplace fueron desarrolladas posteriormente en dos direcciones, dando origen a las corrientes objetivas y subjetivas en la páctica bayesiana. En la corriente objetiva, el análisis estadístico depende solo del modelo asumido y el dato analizado.^[31] No hay necesidad de involucrar decisiones subjetivas. En contraste, los estadísticos “subjetivos” niegan la posibilidad de un análisis completamente objetivo en el caso general.

En el subsiguiente desarrollo de las ideas de Laplace, las ideas subjetivas predominaron sobre las objetivas. La idea de que la “probabilidad” debería ser interpretada como el ¨grado de creencia subjetivo en una proposición¨ fue propuesto, por ejemplo, por John Maynard Keynes a comienzos de la década de 1920. Esta idea fue llevada más lejos por Bruno de Finetti en Italia (Fondamenti Logici del Ragionamento Probabilistico, 1930) y Frank Ramsey en Cambridge (The Foundations of Mathematics, 1931).^[32] El enfoque fue diseñado para resolver problemas con la definición frecuentista de la probabilidad, pero también con el anterior enfoque objetivo de Laplace.^[31] El método subjetivo bayesiano fue sucesivamente desarrollado y popularizado en los años cincuenta por L. J. Savage.

La inferencia objetiva bayesiana fue desarrollada con posterioridad por Harold Jeffreys, cuyo libro "Theory of probability" apareció en 1939. En 1957, Edwin Thompson Jaynes promovió el concepto de entropía máxima para construir priores, el cual es un principio importante en la formulación de métodos objetivos, principalmente para problemas discretos. En 1965, el segundo volumen de Dennis Lindley "Introduction to probability and statistics from a bayesian viewpoint" llevó los métodos bayesianos a un público más amplio. En 1979, José-Miguel Bernardo introdujo el análisis referencial,^[31] el cual ofrece un marco de trabajo general aplicable para el análisis objetivo. Otros de los más populares proponentes del bayesianismo incluyen a I. J. Good, B. O. Koopman, Howard Raiffa, Robert Schlaifer y Alan Turing

En los años ochenta hubo un crecimiento dramático en investigaciones y aplicaciones de métodos bayesianos, mayormente atribuibles al descubrimiento de los métodos Markov chain Monte Carlo, los cuales eliminaron, muchos de los , y al creciente interés en aplicaciones complejas y no estándares.^[33] A pesar del crecimiento de la investigación bayesiana, la mayoría de la enseñanza universitaria está basada en estadísticas frecuentistas.^[34] Sin embargo, los métodos bayesianos son ampliamente aceptados y usados, por ejemplo, en el campo de aprendizaje de máquinas.^[35]

Durante el siglo 20, la creación de instrumentos precisos para la investigación en agricultura, problemas de salud pública (epidemiología, bioestadísticas, etc.), control de calidad industrial y propósitos económicos y sociales (tasa de desempleo, econometría, etc.) necesitaron de los avances substanciales en la práctica de la estadística.

Hoy el uso de la estadística se ha ampliado más allá de sus orígenes. Individuos y organizaciones usan las estadísticas para entender los datos y hacer decisiones informadas a través de las ciencias naturales y sociales, medicina, negocios y otras áreas.

La estadística es generalmente considerada no como una rama de las matemáticas, sino como un campo distintivo e independiente. Muchas universidades mantienen separados los departamentos de matemática y estadística. La estadística es también enseñada en departamentos tan diversos como psicología, pedagogía y salud pública.