x
1

Estilometría



La estilometría es la aplicación del estudio del estilo lingüístico al lenguaje escrito, aunque también se ha aplicado con éxito a la música[1]​ y a la pintura.[2][3]

La estilometría se utiliza a menudo para atribuir la autoría a documentos anónimos o de autor dudoso. Tiene aplicación legal, académica y literaria, desde la investigación de ciertas obras de Shakespeare a la lingüística forense.

La estilometría deriva de otras técnicas anteriores para analizar textos en busca de pruebas de autenticidad, identidad del autor y otras incertidumbres.

La moderna práctica de la disciplina recibió su principal impulso con el estudio de autorías en obras de teatro del Renacimiento inglés. Investigadores y lectores observaron que algunas obras de la época tenían patrones característicos de lenguaje, e intentaron utilizar estos patrones para identificar autores de colaboraciones o de obras anónimas. Los primeros intentos no siempre tuvieron éxito: en 1901, un investigador trató de utilizar las preferencias lingüísticas de John Fletcher para distinguir entre él y Philip Massinger en sus trabajos colaborativos, pero las aplicó por error a una versión modificada por el editor.[4]

Las bases de la estilometría fueron establecidas por el filósofo polaco Wincenty Lutosławski en el libro Principios de Estilometría, de 1890. Lutosławski utilizó ese método para componer una cronología de los diálogos de Platón

El desarrollo de los ordenadores y su capacidad para analizar grandes cantidades de datos impulsó este tipo de labor. No obstante, esta gran capacidad de análisis seguía sin garantizar la calidad del resultado. A principios de los 60, el reverendo A.Q. Morton realizó un análisis informático de las catorce epístolas del Nuevo Testamento atribuidas a San Pablo, con el que demostró que las obras pertenecía a seis autores distintos. Una comprobación de este método, con obras de James Joyce, reveló que el Ulises, la obra maestra del autor, había sido escrita por cinco personas distintas, ninguna de las cuales, aparentemente, intervino en la redacción de la primera novela de Joyce, Retrato del artista adolescente.[5]

No obstante, con el tiempo y la práctica, investigadores y estudiosos han pulido sus métodos, que hoy arrojan resultados mucho más acertados. Uno de los primeros éxitos fue la resolución de la controvertida autoría de doce de los Federalist Papers, escritos por Frederick Mosteller and David Wallace.[6]​ Aunque todavía surgen dudas sobre la metodología, y es posible que siempre sigan surgiendo, en la actualidad pocos discuten la premisa básica de que el análisis lingüístico de textos escritos puede generar información y conocimientos muy valiosos.

Entre las aplicaciones de la estilometría, los principales son los estudios literarios, históricos, sociales y de género, así como análisis e investigaciones forenses.[7][8]​ También se puede aplicar al estudio de códigos informáticos de autoría dudosa.[9]

La estilometría moderna se apoya en los ordenadores para el análisis estadístico, inteligencia artificial, y en el acceso al creciente corpus de textos disponibles en internet.[10]​ Sistemas de software como «Signature»[11]​ (programa gratuito producido por el Dr. Peter Millican de la universidad de Óxford), JGAAP[12]​ (programa de atribución de autoría gráfico de Java, aplicación gratuita desarrollada por Patrick Juola, de la universidad de Duquesne), stylo[13][14]​ (paquete de fuente abierta para diversos análisis estilométricos, como la atribución de autorías desarrollado por Maciej Eder, Jan Rybicki y Mike Kestemont), o Stylene,[15]​ en neerladés, (aplicación gratuita en línea creada por Walter Daelemans, de la universidad de Amberes, y Véronique Hoste, de la universidad de Gante) facilitan el uso de la estilometría, incluso para los no expertos.

La estilometria se ha utilizado en numerosos casos famosos. Matthew Jockers aplicó técnicas estilométricas al análisis del Libro de Mormón, concluyendo que el autor no era Joseph Smith, sino Sidney Rigdon.[16]​ Más recientemente, otro estudio de Schaalje y su equipo ha desmentido esta teoría, demostrando que Joseph Smith y sus escribas tampoco son sus autores más probables, a la vez que revelaban múltiples autores que trabajaron junto a los principales autores supuestos del texto.[17]

Simon Fuller y James O'Sullivan publicaron un estudio en el que afirman que el autor de bestsellers James Patterson no escribe nada en las novelas en las que aparece como coautor.[18][19][20]​ Según O'Sullivan, su colaboración con el antiguo presidente de EE.UU. Bill Clinton en el libro El presidente ha desaparecido es una excepción.[21]

En mayo de 2021 fue descubierta una nueva obra literaria de Lope de Vega mediante la aplicación de técnicas de estilometría computacional por el proyecto ETSO. Estilometría aplicada al Teatro del Siglo de Oro dirigido por Álvaro Cuéllar y Germán Vega García-Luengos.[22]​ Se trata de una comedia denominada "de senectute", "tan triste en lo personal como pletórica en lo artístico", que que figuraba atribuida al actor y escritor ocasional Miguel Bermúdez, pero existen pruebas contundentes de la autoría de Lope, como demuestra el estudio de Abraham Madroñal, catedrático de Literatura Española de la Universidad de Ginebra.[23]

Puesto que la estilometría se aplica a casos descriptivos para caracterizar el contenido de una colección, y a casos identificativos, como la verificación de autorías o categorías de texto, los métodos utilizados para analizar datos y características varían de los diseñados para clasificar elementos en conjuntos a los creados para distribuir dichos elementos en un espacio de atributos variados. La mayor parte de los métodos son de naturaleza estadística ─como el análisis de grupos y el análisis discriminante lineal─, se suelen basar en características y datos filológicos y son productivos campos de aplicación de métodos modernos de aprendizaje automático.

Mientras que en el pasado la estilometría hacía hincapié en los elementos menos frecuentes o más chocantes de un texto, las técnicas contemporáneas pueden aislar patrones identificativos, incluso en partes comunes del discurso. La mayoría de los sistemas se basa en estadísticas léxicas, por ejemplo, la frecuencia de ciertas palabras o términos en el texto para caracterizar dicho texto o su autor. En ese contexto, a diferencia de la recuperación de información, la frecuencia de los patrones de las palabras más comunies es más interesante que los términos tópicos menos frecuentes.[40][41]

El método estilométrico primario es la invariante de autor: una propiedad que todos los textos tienen en común, o al menos todos los textos lo suficientemente largos como para admitir resultados estadísticamente flexibles significativos escritos por un autor dado. Un ejemplo de invariante de autor es la frecuencia de palabras funcionales utilizadas por el escritor.

En este método, el texto se analiza para encontrar las 50 palabras más comunes. Después, el texto se divide en 5000 partes, y cada una de estas partes se analiza para buscar la frecuencia de esas 50 palabras en ese trozo. Esto genera un identificador único de 50 números para cada parte. Estos números colocan al trozo correspondiente en un punto de un espacio de 50 dimensiones, que se reduce a un plano gracias al análisis de componentes principales (ACP). El resultado es una muestra de puntos que corresponde al estilo de un autor. Si dos trabajos literarios se analizan de esta forma, la comparación de estos patrones nos dirá si son del mismo autor o no.

Se han utilizado redes neuronales ─un caso especial de método estadístico de aprendizaje automático─ para analizar la autoría de textos. Se utilizan otros textos de autor conocido para entrenar a la red neuronal por medio de procesos como la propagación hacia atrás, en la que se calcula y se usa el error para actualizar el proceso con el fin de incrementar su exactitud. A través de un proceso similar a la regresión no lineal, la red aumenta su capacidad de generalizar su eficacia de reconocimiento a nuevos textos a los que no ha sido aún expuesta, para clasificarlos con un determinado grado de seguridad. Estas técnicas se aplicaron a las históricas sospechas de colaboración entre Shakespeare y sus contemporáneos Fletcher y Christopher Marlowe,[42][43]​ que confirmaron la opinión, basada en estudios más convencionales, de que esta colaboración se había producido.

En un estudio de 1999, un programa de redes neuronales alcanzó el 70% de exactitud determinando la autoría de poemas que no habían sido analizados hasta entonces. Este estudio, de la universidad Vrije, examinó la identidad de poemas de tres autores holandeses utilizando solo secuencias de letras.[44]

Otro estudio utilizó redes de creencia profunda para un modelo de verificación de autoría aplicable a la autentificación continua.[45]​ En este método, el problema es que la red puede hacerse tendenciosa obedeciendo a su entrenamiento, y es posible que se decante por los autores que ha analizado con más frecuencia.[44]

Otra técnica de aprendizaje automático utilizada en la estilometría es el algoritmo genético, basado en conjuntos de reglas de este tipo: «si la palabra X aparece más de N veces cada mil palabras, entonces el autor del texto es Y». El programa aplica 100 reglas a un determinado conjunto de textos conocidos y cada una de ellas recibe una puntuación de idoneidad. Las 50 reglas con menos puntuación se descartan, y las 50 restantes se ajustan con pequeños cambios. Se introducen 50 reglas nuevas y se repite el proceso hasta que las reglas evolucionaldas atribuyen correctamente los textos.

El método denominado pares raros para identificar estilos se basa en costumbres individuales de colocación. El uso que un autor determinado hace de ciertas palabras puede conllevar el uso idiosincrásico y predecible de otras palabras.

La difusión de internet ha inclinado la atención de la atribución de autoría hacia los textos en línea (páginas web, blogs, etc.), mensajes electrónicos (correos, tuits, comentarios, etc.) y otros tipos de información escrita con textos mucho más cortos que un libro de longitud media, mucho menos formales y más diversos en cuanto a elementos expresivos, como colores, diseño, tipo de letra, gráficos, emoticonos, etc. Ya se trabaja en modelos que tienen en cuenta estos aspectos tanto en la estructura como en la sintaxis.[46]​ Además, se han introducido datos de contenido específico e idiosincrásico (como modelos tópicos y herramientas de comprobación gramatical) para revelar elecciones deliberadas de estilo.[47]

Se han utilizado características estilométricas estándar para categorizar el contenido de un chat en una aplicación de mensajería instantánea[48]​ o el comportamiento de los participantes en la conversación,[49]​ pero los intentos de identificar a dichos participantes son escasos y están todavía en sus primeras fases. Además, se ha prestado poca atención a las similitudes entre las conversaciones habladas y las interacciones en mensajerías instantáneas,[50]​ aunque representan una diferencia esencial entre los datos que aprotan estas últimas y cualquier otro tipo de información escrita.



Escribe un comentario o lo que quieras sobre Estilometría (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!