Modelación del lenguaje

Un modelo del lenguaje estadístico asigna una probabilidad a una secuencia de m palabras ${displaystyle P(w_{1},ldots ,w_{m})}$ mediante una distribución de probabilidad. Tener una forma de estimar la verosimilitud de diferentes frases es útil en muchas aplicaciones de procesamiento de lenguaje natural. Modelación del lenguaje se utiliza en el reconocimiento de voz, traducción automática, etiquetado de discurso, análisis, reconocimiento de escritura, la recuperación de información y otras aplicaciones.

En el reconocimiento de voz, la computadora intenta hacer coincidir los sonidos con secuencias de palabras. El modelo del lenguaje proporciona un contexto para distinguir entre las palabras y frases que suenan similares. Por ejemplo, en Inglés Americano, las frases "recognize speech " y " wreck a nice beach " se pronuncian de forma similar pero significan cosas muy diferentes. Estas ambigüedades son más fáciles de resolver cuando se incorpora la evidencia del modelo del lenguaje con el modelo de pronunciación y el modelo acústico. Los modelos del lenguaje se utilizan en la recuperación de información en el modelo de consulta probabilístico. Aquí un modelo del lenguaje está asociado con cada documento en una colección. Los documentos se clasifican sobre la base de la probabilidad de la consulta ${displaystyle Q}$ en el modelo del lenguaje del documento ${displaystyle P(Q|M_{d})}$ . Comúnmente, el modelo del lenguaje unigrama se utiliza para este propósito—además conocido como el modelo de bolsa de palabras.

La escasez de datos es un problema importante en la construcción de modelos de lenguaje. La mayoría de las posibles secuencias de palabras no serán observadas en el entrenamiento. Una solución es hacer la hipótesis de que la probabilidad de una palabra sólo depende de las ${displaystyle n}$ palabras anteriores. Esto se conoce como un modelo de N-grama o modelo unigrama cuando ${displaystyle n=1}$ .

Un modelo unigrama utilizado en la recuperación de información puede ser visto como la combinación de varios autómatas finitos de un solo estado.^[1] Divide las probabilidades de diferentes términos en un contexto, por ejemplo, desde ${displaystyle P(t_{1}t_{2}t_{3})=P(t_{1})P(t_{2}|t_{1})P(t_{3}|t_{1}t_{2})}$ a ${displaystyle P_{uni}(t_{1}t_{2}t_{3})=P(t_{1})P(t_{2})P(t_{3})}$ .

En este modelo, la probabilidad de acertar cada palabra depende por completo de sí, por lo que sólo tenemos autómatas finitos de un estado como unidades. Para cada autómata, sólo tenemos una manera de alcanzar a su único estado, asignado con una probabilidad. Visualizando todo el modelo, la suma de todas las probabilidades de alcanzar un estado debe ser 1. A continuación veremos una ilustración de un modelo unigrama de un documento.

${displaystyle sum_{term in doc}P(term)=1}$

La probabilidad generada para una consulta específica se calcula como ${displaystyle P(query)=prod _{term in query}P(term)}$ Para diferentes documentos, podemos construir sus propios modelos unigram, con diferentes probabilidades de acierto de las palabras en el mismo. Y utilizamos las probabilidades de diferentes documentos para generar diferentes probabilidades de acierto para una consulta. Entonces podemos clasificar los documentos para una consulta de acuerdo a las probabilidades de generación. El siguiente es un ejemplo de dos modelos unigram de dos documentos.

En contextos de recuperación de información, modelos de lenguaje unigramas a menudo se suavizan para evitar casos en los que ${displaystyle P(term)=0}$ . Un enfoque común es generar un modelo de máxima verosimilitud para la colección entera y interpolar linealmente el modelo de colección con un modelo de máxima verosimilitud para cada documento para crear un modelo de documento suavizado.^[2]

En un modelo de n-grama, la probabilidad ${displaystyle P(w_{1},ldots ,w_{m})}$ de observar la frase ${displaystyle w_{1},ldots ,w_{m}}$ se aproxima como ${displaystyle P(w_{1},ldots ,w_{m})=prod _{i=1}^{m}P(w_{i}|w_{1},ldots ,w_{i-1})approx prod _{i=1}^{m}P(w_{i}|w_{i-(n-1)},ldots ,w_{i-1})}$ Aquí, se asume que la probabilidad de observar la i^th palabra w_i en la historia contexto de las palabras i-1 anteriores se puede aproximar por la probabilidad de observar que en la historia contexto abreviada de los n-1 anteriores palabras (orden n^th Propiedad de Markov). La probabilidad condicional puede calcularse a partir de recuentos de frecuencia n-grama: ${displaystyle P(w_{i}|w_{i-(n-1)},ldots ,w_{i-1})={frac {count(w_{i-(n-1)},ldots ,w_{i-1},w_{i})}{count(w_{i-(n-1)},ldots ,w_{i-1})}}}$ Las palabras bigrama' y modelo del lenguaje trigrama denotan modelos de lenguaje n-grama con n=2 y n=3, respectivamente.^[3] Típicamente, sin embargo, las probabilidades de n-grama no se derivan directamente de los recuentos de frecuencia, porque los modelos derivados de esta manera tienen graves problemas cuando se enfrentan a cualquier n-grama que explícitamente no se ha visto antes. En cambio, alguna forma de suavizado es necesaria, asignando una porción de la probabilidad total a las palabras o n-gramas que no se han visto anteriormente. Se utilizan varios métodos, desde la técnica de suavizado simple "agrega-uno" (añade artificialmente una observación a todos los elementos del vocabulario) a modelos más sofisticados, como El descuento Good-Turing, modelos de back-off o interpolación.

En un modelo del lenguaje bigrama (n = 2), la probabilidad de que la frase I saw the red house se aproxima como ${displaystyle P(I,saw,the,red,house)approx P(I|<s>)P(saw|I)P(the|saw)P(red|the)P(house|red)P(</s>|house)}$ mientras que en un modelo del lenguaje trigrama (n = 3), la aproximación es ${displaystyle P(I,saw,the,red,house)approx P(I|<s>,<s>)P(saw|<s>,I)P(the|I,saw)P(red|saw,the)P(house|the,red)P(</s>|red,house)}$ Tenga en cuenta que el contexto de los primeros first ${displaystyle n-1}$ n-gramas se llena con los marcadores de inicio de frase, denotado típicamente

<s>. Además, sin un marcador de final de frase, la probabilidad de una secuencia no gramatical I saw the siempre sería superior a la de la sentencia I saw the red house.

Un modelo del lenguaje posicional ]]^[4] es uno que describe la probabilidad de palabras dadas ocurren cerca uno del otro en un texto, no necesariamente inmediatamente adyacentes. Del mismo modo, los modelos de bolsa de conceptos^[5] de apalancamiento en la semántica asociada con expresiones de varias palabras, como buy_christmas_present, incluso cuando se utilizan en oraciones ricas en información, como "today I bought a lot of very nice Christmas presents".

Escribe un comentario o lo que quieras sobre Modelación del lenguaje (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!