En este tutorial, vamos a aprender qué es Pandas, lo vamos a instalar y probar en Ubuntu 18.04.
¿Qué es?
Pandas es una biblioteca software para Python para el análisis y manipulación de datos. Es una extensión de NumPy. La página oficial de Pandas se encuentra en:
¿Cómo lo instalo?
Para instalarlo, seguiremos el tutorial de Primeros pasos con NumPy. A continuación, instalaremos Pandas:
sudo pip install
pandas
O si queremos trabajar con Python 3 (algo recomendable):
sudo pip3 install pandas
Con esto, ya tenemos Pandas listo para usar en nuestra máquina.
¿Por dónde empiezo?
En primer lugar, crearemos un archivo en Python (en mi caso, hi-pandas.py). La primera línea que necesitamos escribir para usar Pandas es:
import pandas as pd
A partir de aquí, podremos usar todas las funciones de Pandas con pd.
Escribiremos las siguientes líneas, para mostrar por pantalla la versión de Pandas instalada:
# Python import pandas as pd print("--------------------------------------") print("Hi Pandas! Version: " + pd.__version__) print("--------------------------------------")
Desde la consola, ejecutamos el script (trabajaremos con Python 3, con Python 2 serían los mismos comandos, pero en lugar de escribir python3, escribiremos python).
$ python3 hi-pandas.py Hi Pandas! Version: 1.0.1
Si todo ha ido bien, la consola habrá mostrado el mensaje de bienvenida.
Ahora, vamos a cargar una tabla de datos sobre algunos libros y a hacer una serie de cálculos sobre ella. Para ello, añadimos a nuestro archivo lo siguiente:
raw_data = {'titulo': ['Clean Code', 'Head First Design Patterns', 'Artificial Intelligence with Python', 'Electrónica para Makers'], 'autor': ['Robert C. Martin', 'Eric Freeman', 'Prateek Joshi', 'Paolo Aliverti'], 'paginas': [464, 694, 446, 376], 'precio': [35.40, 41.00, 45.74, 23.70], 'puntuacion': [4.6, 4.5, 3.5, 4.4] }
Creamos un DataFrame y lo mostramos por consola:
df = pd.DataFrame(raw_data, columns = ['titulo', 'autor', 'paginas', 'precio', 'puntuacion'])
print(df)
Por último, vamos a probar a hacer unas operaciones estadísticas básicas. Para ello, calculamos el precio medio, la puntuación media y el número máximo y mínimo de páginas:
print("Precio medio:", df["precio"].mean()) print("Puntuación media:", df["puntuacion"].mean()) print("Número de páginas (máximo):", df["paginas"].max()) print("Número de páginas (mínimo):", df["paginas"].min())
Si todo ha ido bien, nos mostrará por consola el siguiente resultado:
-------------------------------------- Hi Pandas! Version: 1.0.1 -------------------------------------- titulo autor paginas precio puntuacion 0 Clean Code Robert C. Martin 464 35.40 4.6 1 Head First Design Patterns Eric Freeman 694 41.00 4.5 2 Artificial Intelligence with Python Prateek Joshi 446 45.74 3.5 3 Electrónica para Makers Paolo Aliverti 376 23.70 4.4 Precio medio: 36.46 Puntuación media: 4.25 Número de páginas (máximo): 694 Número de páginas (mínimo): 376
El código lo tengo compartido en mi cuenta de GitHub:
https://github.com/diegorys/ml-py-examples/blob/master/hi/hi-pandas.py