WordNet

WordNet es una base de datos léxica del Idioma inglés^[1] que agrupa palabras en inglés en conjuntos de sinónimos llamados synsets, proporcionando definiciones cortas y generales y almacenando las relaciones semánticas entre los conjuntos de sinónimos. Su propósito es doble: producir una combinación de diccionario y tesauro cuyo uso sea más intuitivo, y soportar los análisis automáticos de texto y las aplicaciones de inteligencia artificial. Así, WordNet es el lexicón computacional de inglés comúnmente más usado para desambiguar el significado de las palabras (word sense disambiguation (WSD)), una tarea que tiene como objetivo asignar el concepto más apropiado (i.e. synsets) a los términos en contexto. La base de datos y las herramientas del software se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente; además, la base de datos puede consultarse en línea.

WordNet fue creado y es mantenido por el Cognitive Science Laboratory de la Universidad de Princeton bajo la dirección del profesor de psicología George A. Miller. El proyecto comenzó en 1985 y, a través de los años, ha recibido financiamiento de agencias gubernamentales interesadas en la traducción automática como la National Science Foundation, Agencia de Proyectos de Investigación Avanzados de Defensa (DARPA) y REFLEX. Hacia el año 2009, el equipo de WordNet incluye a los siguientes miembros: George Armitage Miller, Christiane Fellbaum, Randee Tengi, Pamela Wakefield, Helen Langone y Benjamin R. Haskell. A Miller y Fellbaum les fue concedido el Premio Antonio Zampolli en el 2006 por su trabajo con la base de datos.

Desde noviembre de 2012 la última versión de WordNet es la 3.1 (anunciada en junio del 2011), pero la última versión liberada fue la 3.0 (liberada en diciembre de 2006).^[2] La base de datos 3.0 contiene 155 287 palabras organizadas en 117 659 synsets(grupos de significado) para un total de 206 941 pares de palabras; en forma comprimida tiene 12 megabytes de tamaño.^[3] WordNet distingue entre sustantivos, verbos, adjetivos y adverbios porque siguen diferentes reglas gramaticales, pero no incluye preposiciones y otros similares. Cada synset contiene un grupo de palabras que son sinónimos o locuciones (una locución es una secuencia de palabras que, unidas, toman un significado específico); mientras que diferentes significados de una palabra están en distintos synsets. El significado de los synset queda más claro con los glosses (definición y/o frases de ejemplo). Un ejemplo de un synset con gloss es el siguiente:

La mayoría de los synsets están conectados a otros synsets mediante numerosas relaciones semánticas. Estas relaciones varían basándose en el tipo de palabra, y se incluyen:

Mientras que las relaciones semánticas se aplican a todos los miembros de un synset porque comparten significado, no todos son mutuamente sinónimos desde que las palabras también pueden estar conectadas a otras a través de relaciones léxicas, incluyendo antónimos. WordNet también provee el polysemy count: el número de synsets que contienen la palabra. Si una palabra participa en varios synsets (i.e. tiene varios significados) es lógico que unos significados sean más comunes que otros. WordNet los califica por la frecuency score, según el cual varios textos de ejemplo tienen todas las palabras semánticamente etiquetadas en el correspondiente synset y después, a través de un contador, se indica la frecuencia en la que una palabra aparece con un significado específico. Las funciones morfológicas del software distribuidas con la base de datos tratan de deducir el lema o lexema de una palabra desde la entrada del usuario, mientras que dicho lexema es almacenado en la base de datos.

Los sustantivos y los verbos están organizados en jerarquías. Por ejemplo, el primer significado de la palabra "perro" tendrá la primera jerarquía hypernyn; las palabras en el mismo nivel son sinónimos unas de otras. Cada conjunto de sinónimos (synset) tiene un único indexador y comparte sus propiedades, así como una definición tipo gloss (o diccionario).

En el nivel superior estas jerarquías están organizadas en tipos básicos, 25 grupos primitivos de sustantivos y 15 de verbos. Estos grupos de archivos lexicográficos están en un nivel de mantenimiento y están conectados a un nodo raíz abstracto, que ha sido asumido desde algún tiempo por varias aplicaciones que usan WordNet. En el caso de los adjetivos la organización es diferente: la jerarquía y el concepto involucrado con los archivos lexicográficos no se aplican de la misma forma que lo hacen para los sustantivos y los verbos. En esencia, el grafo de sustantivos es mucho más profundo que otras partes del lenguaje; los verbos tienen una estructura más densa; los adjetivos están organizados en varios clústeres diferentes; y los adverbios están organizados en términos de los adjetivos de los cuales se derivan, y por tanto heredan su estructura de estos.

El objetivo de WordNet era desarrollar un sistema que fuera consistente con el conocimiento adquirido a través de los años sobre cómo los humanos procesan el lenguaje. La afasia anómica (anomic aphasia), por ejemplo, crea una condición que parece dificultar la habilidad de los individuos de nombrar los objetos; esto hace la decisión de particionar las distintas partes del idioma en distintas jerarquías es más una decisión de principio que una decisión arbitraria. En el caso de los hipónimos, los experimentos psicológicos revelan que los individuos pueden acceder a las propiedades de los sustantivos de forma más rápida dependiendo de cuando una característica se convierte en una propiedad definitoria. Por ejemplo, los individuos pueden verificar rápidamente que los canarios pueden volar porque un canario es un ave, pero cuesta más trabajo identificar que un canario tiene piel. Esto sugiere que nosotros también almacenamos información semántica en una forma muy parecida a como lo hace WordNet, porque solo retenemos la información más específica que necesitamos para diferenciar un concepto en particular de otros conceptos similares.^[4]

La relación hiperónimo/hipónimo entre los synsets puede ser interpretada como una relación de especialización entre categorías conceptuales. En otras palabras, WordNet puede ser interpretado y usado como una ontología en la ciencia de la computación; sin embargo, para utilizarlo como una ontología debe ser corregido antes de usarlo, ya que contiene cientos de inconsistencias semánticas básicas como (i) la existencia de especializaciones comunes para categorías exclusivas y (ii) redundancias en la jerarquía de especialización. Por lo tanto, transformar WordNet en una ontología léxica usable para la representación del conocimiento debe normalmente involucrar (i) la distinción de las relaciones de especialización en subtipos de las instancias de relaciones y (ii) asociar identificadores únicos e intuitivos para cada categoría. Aunque esas correcciones y transformaciones han sido desarrolladas y documentadas como parte de la integración de WordNet dentro de WebKB-2, la base de conocimiento actualizable de forma cooperativa, la mayoría de los proyectos alegan rehusarse a utilizar WordNet para aplicaciones basadas en conocimientos (típicamente aplicaciones para la recuperación de información orientada al conocimiento) de forma directa. WordNet también ha sido convertido en una especificación formal por medio de una metodología híbrida bottom-up top-down para extraer automáticamente relaciones de asociación e interpretar dichas asociaciones en términos de conjuntos de relaciones conceptuales, formalmente definido en el DOLCE foundational ontology..^[5]

A diferencia de otros diccionarios, WordNet no incluye información sobre la etimología, pronunciación y la forma de los verbos irregulares y contiene solo información limitada sobre uso. La información lexicográfica y semántica actual se mantiene en los archivos lexicográficos, que son procesados por una herramienta llamada grind para producir la base de datos distribuida. Ambos, el grind y los archivos, están disponibles libremente en una distribución separada, pero la modificación y mantenimiento de la base de datos requiere experiencia. Por otra parte, a pesar de que WordNet contiene un rango suficientemente amplio de palabras comunes, no cubre el vocabulario de un dominio específico: como está diseñada en primer lugar para actuar como capa subyacente en diferentes aplicaciones, estas no pueden ser usadas en dominios específicos que no son cubiertos por el programa.

WordNet ha sido usado para diferentes y numerosos propósitos en sistemas de información, que incluyen desambiguación del significado de palabras, recuperación de información, clasificación automática de texto, resumen automático de texto, traducción automática e incluso generación de crucigramas. En la Universidad de Brown, Jeff Stibel, James A. Anderson y Steve Reiss, entre otras personas, comenzaron un proyecto llamado Applied Cognition Lab que creaba un desambiguador usando WordNet en 1998. Más tarde este proyecto se integró a la compañía llamada Simpli, de la que actualmente ValueClick es el dueño. George Miller se uniría a Simpli como miembro del consejo asesor y dicha compañía construiría un buscador para Internet que utilizaba una base de conocimientos basada principalmente en WordNet para desambiguar y expandir palabras claves y synsets con el fin de ayudar en la recuperación de información en línea. Otro prominente ejemplo del uso de WordNet es determinar la similitud entre palabras. Frente a esto se han propuesto varios algoritmos que incluyen considerar la distancia entre las categorías conceptuales de las palabras, así como tener en cuenta la estructura jerárquica de la ontología de la base de datos. Numerosos algoritmos de similitud entre palabras basados en WordNet están implementados en un paquete Perl llamado WordNet:Similarity, y un paquete en Python llamado NLTK.

Princeton mantiene una lista de proyectos relacionados que incluye enlaces a algunas de las interfaces de programación de aplicaciones más usadas, que disponen de acceso a WordNet usando varios lenguajes de programación y ambientes de desarrollo.

Wordnet está conectado con algunas bases de datos de la Web semántica, en donde es utilizado comúnmente para el mapeo entre las categorías de WordNet (i.e. synsets) y las categorías de otras ontologías. Generalmente, solo las categorías de los niveles superiores de WordNet son correlacionadas.

La Asociación de WordNet Global (Global WordNet Association (GWA)) es una organización libre, pública y no comercial que suministra una plataforma para discutir, compartir y conectar las bases de datos WordNets para todas lenguas en el mundo entero. El GWA también promueve la estandarización entre idiomas diferentes para asegurar su uniformidad al enumerar los synsets en diferentes idiomas. Para tal efecto, el GWA mantiene una lista de WordNet desarrollados mundialmente.^[6]

La base de datos de WordNet es distribuida como un paquete de diccionario (generalmente un archivo único) para los siguientes software: