x
1

Modelo booleano



El Modelo Booleano de recuperación de información(MRIB)[1]​ es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. [cita requerida]

El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito

de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito

de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:

donde ti significa que el término ti está presente en el documento Di y, por el contrario, NON ti significa que no está.

Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:

Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:

O = {O1, O2, O3}

donde

O1 = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).

O2 = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.

O3 = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.

Sea el conjunto T de términos:

T = {t1 = Principio de Bayes, t2 = probabilidad, t3 = toma de decisión, t4 = Epistemología Bayesiana}

Entonces, el conjunto D de documentos es como sigue:

D = {D1, D2, D3}

donde

D1 = {Principio de Bayes, probabilidad}

D2 = {probabilidad, toma de decisión}

D3 = {probabilidad, Epistemología Bayesiana}

Sea la consulta Q:

Q = probabilidad AND toma de decisión

1. Primeramente, los siguientes conjuntos S1 y S2 de documentos Di son obtenidos (recuperados):

S1 = {D1, D2, D3}

S2 = {D2}

2. Finalmente, los siguientes documentos Di son recuperados en respuesta a Q:{D1, D2, D3} INTERSECTION {D2} = {D2}

Esto significa que el documento original O2 (correspondiente a D2) es la respuesta a Q.

Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).

Desde un puro y formal punto de vista matemático, el MRIB es directo. Desde un punto de vista práctico, de cualquier manera, varios problemas pueden ser resueltos relacionando algoritmos con estructuras de datos, como son por ejemplo, la elección de términos (manual, automática o ambas), lematización, tabla hash, estructura de índices invertidos , y mucho más.[2]

Otra posibilidad es el uso de Conjuntos Hash.Cada documento es representado por una tablas hash, la cual contiene cada término del documento. Desde que el tamaño de la tabla hash crece y decrece en tiempo real con adición y eliminación de términos, cada documento ocupará mucho menos espacio en memoria.De cualquier manera, tendrá una caída de rendimiento porque las operaciones son más complejas que con vectores de bits.En el peor caso el rendimiento puede bajar desde O(n) hasta O(n2).En el caso promedio, la caída del rendimiento no será mucho peor que con vectores de bits y el espacio usado es mucho más eficiente.




Escribe un comentario o lo que quieras sobre Modelo booleano (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!