x
1

Limpieza de datos



La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. El proceso de limpieza de datos permite identificar datos incompletos, incorrectos, inexactos, no pertinentes, etc. y luego substituir, modificar o eliminar estos datos sucios ("data duty"). Después de la limpieza, la base de datos podrá ser compatible con otras bases de datos similares en el sistema.

Las inconsistencias descubiertas, modificadas o eliminadas en un conjunto de datos pueden haber sido causado por: las definiciones de diccionario de datos diferentes de entidades similares, errores de entrada del usuario y corrupción en la transmisión o el almacenaje.

La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de calidad.

Datos que son falsos o incorrectos pueden crear conclusiones falsas y dirigir a inversiones. Si un gobierno quiere analizar datos de un censo de población será muy importante que los datos sean fiables para evitar tomar decisiones fiscales erróneas. En ámbitos laborales de forenses, contabilidad e investigación de fraudes usan la limpieza de datos para preparar los datos y se hace antes de mandarlos a un almacén de datos.[1]​ Hay paquetes disponibles para poder limpiar o lavar datos de direcciones, típicamente hecho por un interfaz de programación de aplicaciones (API del inglés).[2]

La calidad de datos debe cumplir con los siguientes requisitos:

Hay muchas herramientas de limpieza de datos como[3]​,[4]​,[5]​,[6]​ y otros. También es común el uso de bibliotecas como Pandas (software) para Python (lenguaje de programación), o Dplyr para R (lenguaje de programación).

En este momento la única herramienta que permite la limpieza de datos de forma distribuida con la tecnología y robustez de Apache Spark es Optimus.

Optimus es el framework faltante para la limpieza, el pre-procesamiento y el análisis exploratorio de datos de una manera distribuida con Apache Spark. Implementa varias herramientas útiles para el manejo y manipulación de datos que hacen la vida del Científico de Datos mucho más fácil. La primera ventaja obvia sobre cualquier otra biblioteca o framework de limpieza de datos públicos es que funcionará en una computadora portátil o un gran cluster, y segundo, es increíblemente fácil de instalar, usar y entender.

Optimus es OpenSource y aquí encontrará la documentación y los ejemplos.



Escribe un comentario o lo que quieras sobre Limpieza de datos (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!