Multiparadigma:
R es un entorno y lenguaje de programación con un enfoque al análisis estadístico.
R nació como una reimplementación de software libre del lenguaje S, adicionado con soporte para ámbito estático. Se trata de uno de los lenguajes de programación más utilizados en investigación científica, siendo además muy popular en los campos de aprendizaje automático (machine learning), minería de datos, investigación biomédica, bioinformática y matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y graficación.
R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. Sin embargo, si se remonta a sus bases iniciales, puede decirse que se inició en los Bell Laboratories de AT&T y ahora Alcatel-Lucent en Nueva Jersey con el lenguaje S. Este último, un sistema para el análisis de datos desarrollado por John Chambers, Rick Becker, y colaboradores diferentes desde finales de 1970. La historia desde este punto es prácticamente la del lenguaje S. Los diseñadores iniciales, Gentleman e Ihaka, combinaron las fortalezas de dos lenguajes existentes, S y Scheme. En sus propias palabras: "El lenguaje resultante es muy similar en apariencia a S, pero en el uso de fondo y la semántica es derivado desde Scheme". El resultado se llamó R "en parte al reconocimiento de la influencia de S y en parte para hacer gala de sus propios logros".
Su desarrollo actual es responsabilidad del R Development Core Team. Para saber más al respecto y en el entorno del programa, puede teclearse contributors(); el la lista desplegada aparecen los nombres de los autores iniciales y los actuales pertenecientes al R Development Core Team (Equipo Central de Desarrolladores R).
A continuación se enumeran algunos hitos en el desarrollo de R:
R proporciona un amplio abanico de herramientas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, algoritmos de clasificación y agrupamiento, etc.) y gráficas.
Al igual que S, se trata de un lenguaje de programación, lo que permite que los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran parte de las funciones de R están escritas en el mismo R, aunque para algoritmos computacionalmente exigentes es posible desarrollar bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios más avanzados pueden también manipular los objetos de R directamente desde código desarrollado en C. R también puede extenderse a través de paquetes desarrollados por su comunidad de usuarios.
R hereda de S su orientación a objetos. La tarea de extender R se ve facilitada por su permisiva política de lexical scoping.
Además, R puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.
Otra de las características de R es su capacidad gráfica, que permite generar gráficos con alta calidad. R posee su propio formato para la documentación basado en LaTeX.
R también puede usarse como herramienta de cálculo numérico, campo en el que puede ser tan eficaz como otras herramientas específicas tales como GNU Octave y su equivalente privativo: MATLAB. Se ha desarrollado una interfaz, RWeka para interactuar con Weka que permite leer y escribir ficheros en el formato arff y enriquecer R con los algoritmos de minería de datos de dicha plataforma.
R forma parte de un proyecto colaborativo y abierto. Sus usuarios pueden publicar paquetes que extienden su configuración básica. Existe un repositorio oficial de paquetes cuyo número superó en otoño de 2009 la cifra de los 2000.
Dado el enorme número de nuevos paquetes, estos se han organizado en vistas (o temas), que permiten agruparlos según su naturaleza y función. Por ejemplo, hay grupos de paquetes relacionados con estadística bayesiana, econometría, series temporales, etc.
Para facilitar el desarrollo de nuevos paquetes, se ha puesto a servicio de la comunidad una forja de desarrollo que facilita las tareas relativas a dicho proceso.
Otros sistemas de software comerciales que integran con R incluyen: JMP, Mathematica, MATLAB, Spotfire, SPSS, Statistica, Platform Symphony, SAS, Tableau Software, Esri ArcGis, Dundas, Statgraphics. y SQL Server 2017.
Algunos ejemplos mínimos para ver la forma en que se puede introducir el código.
Para cargar los paquetes que se requieren se debe de seleccionar el espejo (mirror), descargar la paquetería y luego activarla. Para seleccionar el espejo:
Al escribir solo chooseCRANmirror() se desplegará una ventana para elegirlo manualmente con el ratón. Lo mismo ocurrirá si se omite graphics = FALSE o se escribe graphics = TRUE.
Cuando se instalan paquetes para análisis especializados, específicos o que simplemente no tiene predeterminadamente instalados pero no activados el sistema, se instala. Así pues, en este caso, los paquetes, al ser un entorno con dependencias funcionan mejor con tales paquetes auxiliares. Las dependencias pueden ser por ejemplo otros paquetes o bases de datos para que funcione o bien, o mejor o de hecho lo haga. Algunos paquetes funcionan con dependencias muy específicas, otros con dependencias muy generales; como sea, a veces la misma instalación, al ser común la dependencia, lo hace de forma automática, pero no en todas las ocasiones. Por esto para instalar el paquete de interés se escribirá:
Para activar la librería pueden ser:
Todos tanto con comillas dobles (" ") como con comillas simples (' ') o libres. Si se instalaron las arriba mencionadas dependencias, aparecerán indicaciones luego del comando que describe las dependencias que también se activaron al llamar la librería que se usará.
Para elaborar un mapa de Estados Unidos que sea sobre la tasa de desempleo de 2009 por condados (municipios) y que estos estén marcados por densidad de color se usará lo que a continuación se presenta. Basado en la solución J del "Choropleth Challenge". Se puede obtener este ejemplo (en inglés y con los colores originales) en example(map)
Para el ejemplo en español:
Lo anterior da como resultado el mapa de la imagen inferior.
El siguiente ejemplo es tomado del libro de Kleiber y Zeileis intitulado Applied Econometrics with R. El ejemplo que abajo se expondrá no es tomado al pie de la letra, se le agregaron algunos cambios por el tipo de licencia; no obstante, el fin es el mismo. Se agregan muchas cosas para hacer más didáctico el código y permitir exponer la flexibilidad del paquete estadístico R.
Acá abajo aparece la imagen que se generó con el código de arriba. Además, cualquier error que en la imagen venga no es culpa de los autores del libro citado. Los propietarios de los derechos de autor son totalmente los autores del libro.
Existen diversas interfaces que facilitan el trabajo con R.
Entre los editores de texto e IDEs con soporte para R se cuentan: Bluefish, Crimson Editor, ConTEXT, Eclipse, Emacs (Emacs Speaks Statistics), Geany, jEdit, Kate, RStudio, RKWard, Syn, TextMate, Tinn-R, Vim, gedit, SciTE, WinEdt (R Package RWinEdt), notepad++ y Visual Studio.
Sweave es un procesador de documentos que puede ejecutar código de R incrustado en código de LaTeX y para insertar código, resultados y gráficos en el documento escrito en LaTeX. LyX puede usarse para crear y compilar documentos desarrollados en Sweave. El paquete odfWeave es similar, generando documentos en el formato OpenDocument (ODF); extensiones en estado experimental también permiten generar documentos del tipo presentación u hoja de cálculo.
La funcionalidad de R puede ser invocada desde código desarrollado en otros lenguajes de script tales como Python (mediante RPy ), Perl (mediante Statistics::R ), Ruby y F#. También pueden desarrollarse scripts en R directamente usando littler o Rscript, que forma parte de la distribución básica de R desde la versión 2.5.0.
Otras alternativas a R son las que abajo se presentan. Cabe recordar que pueden tener cierto sesgo a especializarse en algún tema específico, como R lo hace con la biología, fisiología o similares, por ejemplo con el proyecto Bioconductor. En el caso de estos sesgos positivos puede mencionarse a GNU Octave, que es más matemático, o Gretl que se centra más a series de tiempo (usadas en econometría).
No obstante los sesgos temáticos, hay amplísimos grupos que usan todas las alternativas para usos eclécticos. Econometría, biología, edafología, topología, estadística pueden ser algunas de las ramas que cada vez están usando más las alternativas libres de software o lenguajes de programación (como R) para su aplicación teórica o práctica.
Además, los paquetes se desarrollan para R conforme las investigaciones o publicaciones, como el caso del ejemplo 3 líneas arriba. Otro ejemplo es el paquete de Benchmarking de R elaborado por Peter Bogetoft y Lars Otto, ambos investigadores y especialistas del tema. Es decir, los productores de estos paquetes con, casi siempre, especialistas e investigadores que desean compartir los conocimientos aplicados a la comunidad de usuarios.
La naturaleza de los paquetes libres permiten que se testeen rápido y sean sinérgicas las opiniones para un avance pronto. Entonces, existen ámbitos positivos en este caso también tanto como en las siguientes alternativas, las privativas.
No obstante las poderosas alternativas libres mencionadas arriba, existen opciones que son privadas o empresariales. En este caso, pueden presentarse lenguajes de programación con comunidades que comparten códigos. En este caso, Stata es un fuerte ejemplo. Es decir, un especialista puede desarrollar un paquete especial para ese programa y luego compartirlo usualmente con la empresa autora; entonces, la empresa puede distribuirla primero a manera de prueba y luego de forma gratuita (o con montos monetarios especiales) y con el respaldo de la calidad avalada.
Existen puntos a favor de que las empresas distribuyan con cierto aval los códigos o paqueterías: se asegura del óptimo funcionamiento de las mismas, se evitan los bugs que eventualmente pueden ser comunes en ciertos códigos de las alternativas libres y otras más.
Escribe un comentario o lo que quieras sobre R (lenguaje de programación) (directo, no tienes que registrarte)
Comentarios
(de más nuevos a más antiguos)