x
1

Función hash



Una función hash H es una función computable mediante un algoritmo tal que:

A la funciones resumen también se le denomina función hash, función digest, función extracto o función de extractado.[1][2][3]

La función hash tiene como entrada un conjunto de elementos, que suelen ser cadenas, y los convierte en un rango de salida finito, normalmente cadenas de longitud fija. Es decir, la función actúa como una proyección del conjunto U sobre el conjunto M.

Hay que tener en cuenta que M puede ser un conjunto definido de enteros. En este caso podemos considerar que la longitud es fija si el conjunto es un rango de números de enteros ya que podemos considerar que la longitud fija es la del número con mayor número de cifras. Todos los números se pueden convertir al número especificado de cifras simplemente anteponiendo ceros.

Normalmente el conjunto U tiene un número elevado de elementos y M es un conjunto de cadenas con un número más o menos pequeño de símbolos. La idea básica de un valor hash es que sirva como una representación compacta de la cadena de entrada.

Por esta razón se dice que estas funciones resumen datos del conjunto dominio.

El término hash proviene, aparentemente, de la analogía con el significado estándar (en inglés) de dicha palabra en el mundo real: picar y mezclar. Donald Knuth cree que H. P. Luhn, empleado de IBM, fue el primero en utilizar el concepto en un memorándum fechado en enero de 1953. Su utilización masiva no fue hasta después de 10 años.

Al conjunto U se le llama dominio de la función resumen. A un elemento de U se le llama pre-imagen o dependiendo del contexto clave o mensaje.

Al conjunto M se le llama imagen de la función hash. A un elemento de M se le llama valor resumen, código hash o simplemente hash.

Se dice que se produce una colisión cuando dos entradas distintas de la función resumen producen la misma salida. De la definición de función resumen podemos decir que U, el dominio de la función, puede tener infinitos elementos. Sin embargo M, el rango de la función, tiene un número finito de elementos debido a que el tamaño de sus cadenas es fijo. Por tanto la posibilidad de existencia de colisiones es intrínseca a la definición de función hash. Una buena función resumen es una que tiene pocas colisiones en el conjunto esperado de entrada. Es decir, se desea que la probabilidad de colisión sea muy baja.

La definición formal dada, a veces se generaliza para poder aprovechar las funciones hash en otros ámbitos. Para ello a la función resumen se le añaden nuevos parámetros de forma que el valor hash no es solo función del contenido en sí, sino además de otros nuevos factores.

Para hallar valores resumen de ficheros a veces se usan, además del contenido en sí, diversos parámetros como el nombre del archivo, su longitud, hora de creación, etc.

Otras veces se añaden parámetros que permiten configurar el comportamiento de la función. Por ejemplo, la función resumen puede recibir como parámetro una función de generación de valores pseudoaleatorios que es usada dentro del algoritmo de la función hash.

Otros ejemplos de parámetros son el uso de valores sal, el uso de claves secretas, el uso de parámetros que especifican el rango de la función (funciones hash de rango variable), el uso de parámetros que especifican el nivel de seguridad que se quiere en el valor resumen de salida (funciones hash dinámicas), etc.

Una función resumen con clave HK (en inglés keyed hash function) es una función resumen H que tiene un parámetro secreto K que pertenece al conjunto posible de claves y en la que para una entrada x, hK(x) es el valor resumen de x. Al resto de funciones resumen se dice que son sin clave (en inglés unkeyed hash function).

La calidad de una función resumen viene definida con base en la satisfacción de ciertas propiedades deseables en el contexto en el que se va a usar.

Calcular el valor hash necesita poco costo (computacional, de memoria, etc.).

Una función hash comprime datos si puede mapear un dominio con datos de longitud muy grande a datos con longitud más pequeña

Se dice que una función resumen es uniforme cuando para una clave elegida aleatoriamente es igualmente probable tener un valor resumen determinado, independientemente de cualquier otro elemento.

Para una función hash H uniforme del tipo H:{0,1}m→{0,1}n, es decir:

podemos decir que a cada resumen le corresponde 2m-n mensajes y que la probabilidad de que dos mensajes den como resultado la misma salida es 2-n

Para algoritmos de búsqueda, si todas las entradas son igualmente probables, se busca esta propiedad para minimizar el número de colisiones ya que cuantas más colisiones haya, será mayor el tiempo de ejecución de las búsquedas.

En algunas funciones resumen el rango de valores resumen puede ser diferente a lo largo del tiempo. Ejemplo: funciones hash usadas para tablas resumen que necesitan expandirse. En estos casos a la función hash se le debe pasar un parámetro que le permita saber en qué rango se mueve la ejecución para hallar el valor resumen.

Se dice que la función resumen es inyectiva cuando cada dato de entrada se mapea a un valor resumen diferente. En este caso se dice que la función resumen es perfecta. Para que se dé, es necesario que la cardinalidad del conjunto dominio sea inferior o igual a la cardinalidad del conjunto imagen. Normalmente, sólo se dan funciones hash perfectas cuando las entradas están preestablecidas. Ejemplo: mapear los días del año en números del 1 al 366 según el orden de aparición.

Formalización:

implica

Cuando no se cumple la propiedad de inyectividad se dice que hay colisiones. Hay una colisión cuando y .

Una función hash se dice que es determinista cuando dada una cadena de entrada siempre devuelve el mismo valor hash. Es decir, el valor hash es el resultado de aplicar un algoritmo que opera solo sobre la cadena de entrada. Ejemplos de funciones hash no deterministas son aquellas funciones hash que dependen de parámetros externos, tales como generadores de números pseudoaleatorios o la fecha. Tampoco son deterministas aquellas funciones hash que dependen de la dirección de memoria en la que está almacenada la cadena de entrada. Esa dirección es accidental y no se considera un cambio de la cadena entrada en sí. De hecho puede cambiar dinámicamente durante la propia ejecución del algoritmo de la función hash.

El estudio de este tipo de propiedades es muy útil en el campo de la criptografía para los llamados 'códigos de detección de modificaciones'.

[2]​Se dice que una función resumen tiene resistencia a la primera preimagen o simplemente que tiene resistencia a preimagen (del inglés preimage-resistant) si, dado un valor hash y, es computacionalmente intratable encontrar x tal que h(x)=y.

[2]​Se dice que una función resumen tiene resistencia a la segunda preimagen (en inglés second preimage-resistant) si dado un mensaje x, es computacionalmente intratable encontrar un x', , tal que h(x)=h(x').

[2]​Se dice que una función hash tiene resistencia a colisiones o que es resistente a colisiones o CRHF (del inglés Collision Resistant Hash Function) si encontrar un par con tal que es computacionalmente intratable. Es decir, es difícil encontrar dos entradas que tengan el mismo valor resumen.

Como encontrar una segunda preimagen no puede ser más fácil que encontrar una colisión, entonces la resistencia a colisiones incluye la propiedad de resistencia a la segunda preimagen.[4][5]​ Por otro lado se puede decir que la mayoría de las funciones resumen CRHF son resistentes a preimagen.[2]​ La resistencia a colisiones implica resistencia a preimagen para funciones hash con salida aleatoria uniforme.[6]

En algunos trabajos a estas funciones se les llama funciones resumen de un solo sentido fuertes (del inglés strong one way hash function) para resaltar que es fuerte debido a que hay libre elección de los dos valores x e y.

[7]​Una función hash se dice que es una función resumen de un solo sentido o que es OWHF (del inglés One-Way Hash Function) si tiene las propiedades de resistencia a preimagen y de resistencia a segunda preimagen. Es decir, es difícil encontrar una entrada cuya hash sea un valor resumen preespecificado.

Observar que es diferente a la definición general que se hace de funciones de un solo sentido:

En algunos trabajos a estas funciones se les llama funciones hash de un solo sentido débiles (del inglés weak one way hash function) para resaltar que es débil en contraste con CRHF (que es fuerte) debido a que al cumplir la propiedad de resistencia a segunda preimagen no hay libre elección en la selección del valor x, y por tanto del valor h(x), en el que se tiene que producir la colisión.

[8]​H es resistente a la casi colisión (en inglés near-colission resistance) si es difícil encontrar dos mensajes y con para las cuales sus imágenes y difieran solamente en unos pocos bits.

[9]​Por ejemplo podemos tener una función resistente a colisiones de 256 bits que no es resistente a la casi colisión porque se pueden encontrar casi-colisiones para los 224 bits de más a la izquierda.

Son funciones en las que invirtiendo cierto coste en procesamiento de CPU y memoria es posible encontrar en tiempos razonables dos entradas que produzcan resultados en los que sus bits se parezcan en cierto grado. Por ejemplo que se parezcan en un porcentaje de bits, o más comúnmente que sean iguales es los n-bits más significativos.

Por ejemplo con SHA1 para conseguir una colisión total con fuerza bruta necesitaríamos comprobaciones o al menos usando la paradoja del cumpleaños. Sin embargo si vamos reduciendo el número de bits más significativos que tienen que coincidir, el número de comprobaciones va bajando paulatinamente.

Funciones resumen con esta propiedad se usan en sistemas de prueba de trabajo, como Hashcash o Bitcoin para conseguir las pruebas de trabajo.

[10]​Una función resumen tiene resistencia a preimágenes parciales (en inglés Partial-preimage resistance) si es difícil encontrar una parte de la preimagen de un valor hash incluso conociendo el resto de la preimagen. Es decir, se debe recurrir a la fuerza bruta: si se desconocen t bits de la preimagen, se deben realizar en promedio 2n-t operaciones de hash encontrarlo.

A una función resumen resistente a preimágenes parciales también se le dice que es localmente de un solo sentido (del inglés local one-wayness).

En algunas aplicaciones, las cadenas de entrada pueden contener características que son irrelevantes cuando comparamos las cadenas. Por ejemplo en algunas aplicaciones las mayúsculas pueden ser irrelevantes. Por tanto para hallar el valor hash es interesante ignorar las distinciones no relevantes entre las cadenas de entrada. De esta forma cadenas distintas con diferencias no relevantes, tienen asociados valores hash iguales.

Se dice que una función resumen es continua cuando una modificación minúscula (ej un bit) en la cadena de entrada ocasiona pequeños cambios en el valor hash.

En una función resumen se dice que no hay correlación cuando los bits de las cadenas de entrada y los bits de las cadenas de salida no están relacionados, es decir, cuando una modificación minúscula (por ejemplo un bit) en la cadena de entrada ocasiona cambios en el valor hash comparables a un cambio de cualquier otro tipo. Por tanto cualquier cambio en el mensaje original idealmente hace que cada uno de cualquier bit del valor resumen resultante cambie con probabilidad 0.5. Cuando esto sucede (o casi) se dice que se produce un efecto avalancha

En funciones resumen usadas para búsqueda normalmente se buscan funciones tan continuas como sea posible; de forma que entradas que difieran un poco deberían tener valores hash similares o iguales. Sin embargo la continuidad no es deseable para funciones resumen usadas para sumas de verificación o funciones criptográficas por evidentes razones.

[11]​Una función resumen con clave K, se dice que tiene resistencia a la computación de nuevos valores hash (en inglés Computation-resistance) si a partir de un rango de pares conocidos no puede ser computado para un nuevo dato x con para cualquier i, sin que K sea conocida.

Observar que la propiedad anterior implica que no debería ser posible calcular K a partir de un rango de pares conocidos . A esta propiedad se la llama propiedad de no recuperación de clave (en inglés key non-recovery).

El estudio de este tipo de propiedades son muy útiles en el campo de la criptografía para los llamados códigos de autenticación de mensajes.

Podríamos imaginarnos un algoritmo probabilístico de tiempo polinomial con dos mensajes codificados en el algoritmo que dan lugar a una colisión para una específica función resumen. El algoritmo simplemente devolvería los dos mensajes que causan la colisión. Crear tal algoritmo puede ser extremadamente difícil, pero una vez construido podría ser ejecutado en tiempo polinomial. Sin embargo, definiendo una familia de funciones resumen como una familia infinita de funciones resumen impide que la búsqueda de este algoritmo tenga éxito para todas las funciones resumen de la familia, porque hay infinitas. Por tanto las familias resumen proporcionan un mecanismo interesante para el estudio y categorización de las funciones resumen respecto a su fortaleza frente a la búsqueda de colisiones por parte de un adversario. Este tipo de estudios es muy útil en el campo de la criptografía para los llamados códigos de detección de modificaciones.

Sea , el dominio de la función, sea el rango de la función. Sea el conjunto de todas las posibles claves (teóricamente es infinito aunque en la práctica es finito),

Una familia de funciones hash es un conjunto infinito de funciones hash de la forma (notación equivalente , donde cada función de la familia es indexada por una clave que cumple las siguientes propiedades:

Ejemplo: SHA-1 es una sola instancia de función resumen, no una familia. Sin embargo SHA-1 puede ser modificado para construir una familia finita de funciones. M. Bellare y P. Rogaway[13]​ modificaron SHA-1 de tal forma que la claves especifica las constantes usadas en la cuarta ronda de las funciones. En este caso el tamaño de la clave es de 128 bits y por tanto , y .

Observar que en la definición de una función resumen el dominio se puede formalizar como , sin embargo en una función resumen definida como instancia de un elemento de una familia de funciones resumen el dominio es . Esto es debido a que para que se cumplan las propiedades de seguridad es necesario que el dominio sea muestreado uniformemente en tiempo polinomial. Una familia de funciones puede siempre ser definida con aquel tamaño apropiado para acomodar cualquier mensaje que sea necesario.

De forma informal una familia de funciones es familia de funciones resumen resistente a colisiones, también llamadas CRHF por sus siglas en inglés (Collision Resistant Hash Function), dada una función escogida aleatoriamente de la familia, un adversario es incapaz de obtener una colisión para ella.[14]

[15]​Se dice que una familia de funciones resumen es una (t,ε)-familia resumen resistente a colisiones con la forma con n,l y k enteros positivos y n>=l, que satisfacen la siguiente condición: Sea un buscador de colisiones de cadenas que para una entrada K en el espacio de claves usa tiempo y obtiene como salida , un par tal que . Para cada ,

Observar que la probabilidad es tomada sobre las elecciones aleatorias de .

Mirando esta definición se ve que son interesantes aquellas familias que tienen un t/ε suficientemente grande.

Estrictamente hablando hablamos de familias CRHF pero por simplicidad se suele hablar simplemente de CRHF.

La definición no se mete en cómo se eligen las funciones resumen de la familia. Este punto es crucial.[16]​ En realidad, en cualquier aplicación de funciones resumen resistentes a colisiones, alguna parte P tienen que elegir una función de la familia de forma aleatoria para producir la descripción de la función. Es importante distinguir entre dos casos:

Evidentemente una familia CRHF elegible de forma pública (public-coin) también puede trabajar si uno elige o mantiene la elección de forma privada (secret-coin).

Una función resumen universal es una familia de funciones donde la probabilidad de colisión entre dos textos escogidos es despreciable.[17]

Una k-familia de funciones resumen universal es un conjunto H de funciones tal que para cada elemento y todos los (no necesariamente distintos) .

[19]​Una familia de funciones resumen es ε-casi universal o ε-AU (del inglés ε-almost universal) si es menor que ε la probabilidad de que dos entradas distintas m,n tengan el mismo valor resumen asociado, estando la función resumen elegida aleatoriamente entre los miembros de . De la definición se percibe que son interesantes aquellas familias que tienen un valor pequeño de ε indicando que el adversario no puede encontrar un par de entradas que producen el mismo valor resumen, para una función resumen elegida aleatoriamente de entre los elementos la familia.

Una familia de funciones resumen universal de un solo sentido, también llamadas UOWHF por sus siglas en inglés (Universal One-Way Hash Function), es una familia de funciones resumen universales donde, elegida una clave K aleatoriamente en el espacio de claves, dada una cadena x con valor resumen hK(x) es difícil encontrar un x' distinta de x tal que hK(x)=hK(x'). Al par (x,x') se le llama par de colisión

[20][21]​Se dice que una familia de funciones resumen es (t,ε)-función resumen universal de un solo sentido (UOWHF) si no existe ningún adversario que en tiempo menor que t pueda ganar el siguiente juego con probabilidad mayor o igual que ε: El adversario escoge un valor x del Rango, entonces recibe una clave K del espacio de claves escogida de forma aleatoria. El juego se gana si encuentra un x' tal que hK(x)= hK(x').

El adversario está compuesto por dos algoritmos .

por tanto

siendo un par con tal que hK(x)= hK(x')

Observar que, al igual que en la definición de (t,ε)-CRHF la probabilidad es tomada sobre las elecciones aleatorias de . La gran diferencia es que aquí la entrada x se fija primero.

Mirando esta definición se ve que son interesantes aquellas familias que tienen un t/ε suficientemente grande.

Una familia UOWHF es una noción más débil que una familia CRHF. En una CRHF, al oponente primero se le da la clave y después ella o él tiene que producir la pareja de entradas que colisiona. Encontrar colisiones para un parámetro fijo de una UOWHF, puede que sea bastante más fácil, pero esto no ayudará a un oponente a violar la seguridad. Simon[23]​ ha demostrado que existe un oráculo relativo al cual UOWHF existe, pero no CRHF.

Un puntero hash está compuesto por dos partes:

El puntero puede ser utilizado para obtener la información, mientras que el valor hash puede ser utilizado para verificar que esa información no ha sido modificada, asegurando la autenticidad de esta.

[24]​Una de las aplicaciones que tienen los punteros hash es que pueden ser utilizados para construir una cadenas de bloques (blockchain), mediante la utilización de listas enlazadas.

El primer bloque (bloque 0) de la cadena se conoce como bloque génesis[25]​, en el cual se origina la cadena de bloques. A partir del segundo bloque (bloque 1) se almacena un puntero hash al bloque anterior, el valor hash del bloque anterior y la información del bloque actual. Gracias a este mecanismo, es imposible interferir en un bloque de la cadena de bloques sin que los demás se den cuenta.

Para cualquier bloque de la cadena; el bloque i almacenará un puntero hash al boque i-1, el valor hash del bloque i-1 y la información del bloque i.

Solamente es necesario mantener el puntero hash al último bloque de la cadena de bloques.

Entonces, cuando alguien muestra la cadenas de bloques completa y afirma que los datos no se han modificado, podemos saber si algún bloque de la cadena fue alterado, ya que es posible recorrer los bloques hacia atrás y verificar todos los valores hash uno por uno.


Si un atacante quiere modificar los datos en cualquier parte de la cadena, debe modificar todos los punteros hash desde el principio para conseguir la coherencia, pero al llegar al puntero hash que guarda el último bloque no podrá manipular el encabezado de la cadena

[26]​La propiedad puzzle-friendly permite la minería de las criptomonedas basadas en el algoritmo de prueba de trabajo. Un ejemplo de criptomoneda que está basado en este algoritmo es Bitcoin.

Dados los siguientes valores:

El objetivo es encontrar una solución x, que forma parte de la entrada de la función.

y = (id||x) ϵ Y

Se dice que una función hash es amistosa a los puzles, si para cualquier valor de salida “y” dentro del rango de valores de Y, en este caso como es SHA-256 sería 2²⁵⁶ valores posibles; con una id perteneciente a una muestra de alta incertidumbre, encontrar una x específica sería imposible en un tiempo significativamente menor a 2²⁵⁶ computaciones. La única forma de encontrarla es recorrer el espacio de forma aleatoria, debido a su tamaño. Esto es la característica primordial de esta propiedad y hace posible la descentralización.

Se puede reformular diciendo que, para resolver el puzle, se debe encontrar una x que genere un resultado contenido en el intervalo de Y.

La dificultad del puzle depende directamente del tamaño que tiene el rango Y.

La propiedad de resistencia a colisiones se cumple, pues existe un valor de x para cada valor de “y” del conjunto Y.

[27][28][29]​Muchas funciones hash se construyen mediante el proceso iterativo siguiente hasta conseguir el valor hash de la entrada X, h(X):

Al valor IV se le llama valor inicial y se representa por esas siglas por el término inglés Initial Value. A la función f se la llama función de ronda o función de compresión. A la función g se la llama transformación de salida. Lo que hace la función g es derivar a partir de Ht tantos bits como se quieran en la salida de la función. Frecuentemente g es la función identidad o un truncamiento de Ht.

En este tipo de descripción de funciones hash hay dos elecciones importantes que afectarán a las propiedades que tendrá la función:

A las funciones que se construyen mediante el anterior sistema se dice que son funciones resumen iterativas.

A esta forma de construcción recursiva se la conoce también como de Merkle-Damgård debido a que fue usado por primera vea por R. Merkle y I. Damgård independientemente en 1989.

Las funciones en resumen son usadas en múltiples campos. Ejemplos:

Muchas de las aplicaciones de las funciones hash son relativas al campo de la criptografía (Cifradores, acumuladores criptográficos, firma digital, protocolos criptográficos de autenticación, etc.). La criptografía es una rama de las matemáticas que proporciona herramientas para conseguir seguridad en los sistemas de información. Las funciones resumen interesantes en el área de la criptografía se caracterizan por cumplir una serie de propiedades que permiten a las utilidades criptográficas que las utilizan ser resistentes frente ataques que intenten vulnerar la seguridad del sistema. A las funciones hash que cumplen estas propiedades se les llama funciones hash criptográficas.



Escribe un comentario o lo que quieras sobre Función hash (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!