Python, los pandas y sus profiling
En el apartado de los análisis de datos, para su comprensión y entrega de reportes que permiten mapear un mejor entendimiento de los mismos, se topa uno con pandas_profiling
¿Qué es eso?
Se debe de recordar que pandas es el nombre de una de las librerías usadas en python que permiten y facilitan la extracción de los datos. Profiling viene ha ser la forma en que se pueden mostrar todos esos resultados. (vea imagen 1).
¿Cómo se uso?
Muy sencillo, bueno desde luego primero hay que instalar la librería y ya después hacer uso de ella.
- Para instalar panda_profiling has uso del siguiente comando:
pip3 install pandas_profiling[notebook,html].
- Después hay que crear un archivo donde se contenga las siguientes instrucciones:
import numpy as np
from pandas_profiling import ProfileReport
import pandas as pd
df=pd.read_csv('fichero.csv',sep=';')
df.head()
df.describe()
profile=ProfileReport(df)
profile.to_file('Reporte.html')
¿Qué pasa en los import?
Bien, como es costumbre, hay que incluir todas las librerías que se vayan a utilizar, eso es el numpy, pandas y el pandas_profiling.
¿Qué pasa con el read_csv?
Lo que pasa es que se le asigna un nuevo parámetro donde permite hacer uso de los “;” (punto y comas) que regularmente traen los ficheros csv, también se puede hacer uso del parámetro delimiter=”;” el detalle es que en este caso solo lo delimitas hasta donde se encuentre los punto y comas.
¿Qué hace df.head()?
Permite obtener el primer registro del fichero csv, donde se deben de colocar los campos a analizar.
¿Qué hace df.describe()?
Permite hacer un análisis exploratorio muy básico de primera instancia.
¿Para qué sirve el profile=ProfileReport(df)?
Prepara el reporte de todos los datos que hay en el dataframe que se ha pasado al inicio.
¿Qué hace profile.to_file(“Reporte.html”)?
Esta parte de la función permite generar un fichero html, donde mostrará todos las correlaciones entre los campos y datos, así mismo, genera un buen de gráficas e histogramas donde se puede apreciar la aparición de los datos y campos, su interacción y como se puede mezclar.
Conclusiones
Al parecer tiene más ventajas, debido a que genera un fichero html, en el cual es fácil de transportar y compartir con los distintos clientes que requieran un análisis exploratorio más amplio de los datos y mejor uso de las herramientas que tiene, con el fin de aumentar su productividad y la de sus empleados.
En lo particular es una herramienta genial para la generación y presentación rápida de informes o reportes. Permitiendo con un par de lineas de código en python y el dataset (el archivo csv con todos los datos) podan ser apreciados de una mejor manera. Mucho más fácil de manejar / presentar. Y se deja de lado la técnica milenaria de usar una hoja de calculo para su apreciación.