La semántica distribucional es un área de investigación que desarrolla y estudia las teorías y métodos para cuantificar y categorizar las similitudes semánticas entre elementos lingüísticos, según sus propiedades distribucionales en grandes muestras de datos lingüísticos. La idea básica de la semántica distribucional se puede resumir en la llamada hipótesis distribucional: «elementos lingüísticos con distribuciones similares tienen significados similares».
La hipótesis distribucional se origina de la teoría semántica del uso lingüístico, es decir, palabras que se usan y aparecen en los mismos contextos tienden a transmitir significados parecidos.Firth.
La idea subyacente de que «una palabra se define por sus compañías» fue popularizada porLa hipótesis distribucional es la base de la semántica estadística. Aunque se originó en lingüística, actualmente la ciencia cognitiva está prestando mucha atención a la hipótesis, especialmente en el contexto de uso lingüístico.
La semántica distribucional favorece el uso del álgebra lineal como herramienta computacional y como marco de representación. El enfoque básico consiste en recoger información distribucional en vectores de muchas dimensiones, para después definir la similitud semántica como la similitud entre vectores.análisis semántico latente (ASL, o LSA por sus siglas en inglés, latent semantic analysis), el hiperespacio análogo al lenguaje (HAL), los modelos basados en sintaxis o en dependencias, el indexado aleatorio, el plegado semántico y numerosas variantes del topic modeling o categorización. Los modelos de semántica distribucional difieren entre sí principalmente por los siguientes parámetros:
Se pueden extraer diferentes tipos de similitud, dependiendo del tipo de información distribucional que se use para formar los vectores: similitud tópica si la información consiste en la región del texto en que aparecen los elementos lingüísticos; paradigmática si los vectores contienen información sobre otros elementos lingüísticos que coaparecen con el elemento en cuestión. Este último tipo de vectores puede utilizarse también para extraer similitudes sintgmáticas si se presta atención a los componentes individuales de cada vector. La idea básica de la existencia de una correlación entre la similitud distribucional y la semántica puede operar de varias maneras. Hay una amplia variedad de modelos computacionales para implementar semántica computacional, como elA los modelos de semántica distribucional que usan elementos lingüísticos como contexto también se les ha llamado word space models.
Los modelos de semántica distribucional composicional son una extensión de los modelos semánticos distribucionales que se caracteriza por tratar la semántica de frases u oraciones enteras. Esto se consigue uniendo las representaciones distribucionales de las palabras que contiene la oración. Se han explorado diferentes enfoques de composición, de hecho están sujetos a debate en congresos consolidados como SemEval.
Otros modelos más simples, no composicionales, no logran capturar la semántica de las unidades lingüísticas más largas, ya que ignoran las estructuras gramaticales o los conectores, cruciales para su entendimiento.
Los modelos de semántica distribucional se han usado con éxito para completar las siguientes tareas:
Escribe un comentario o lo que quieras sobre Semántica distribucional (directo, no tienes que registrarte)
Comentarios
(de más nuevos a más antiguos)