7 agosto, 2020
Pandas

Primeros pasos con Pandas

PandasEn este tutorial, vamos a aprender qué es Pandas, lo vamos a instalar y probar en Ubuntu 18.04.

¿Qué es?

Pandas es una biblioteca software para Python para el análisis y manipulación de datos. Es una extensión de NumPy. La página oficial de Pandas se encuentra en:

https://pandas.pydata.org/

¿Cómo lo instalo?

Para instalarlo, seguiremos el tutorial de Primeros pasos con NumPy. A continuación, instalaremos Pandas:

sudo pip install pandas

O si queremos trabajar con Python 3 (algo recomendable):

sudo pip3 install pandas

Con esto, ya tenemos Pandas listo para usar en nuestra máquina.

¿Por dónde empiezo?

En primer lugar, crearemos un archivo en Python (en mi caso, hi-pandas.py). La primera línea que necesitamos escribir para usar Pandas es:

import pandas as pd

A partir de aquí, podremos usar todas las funciones de Pandas con pd.

Escribiremos las siguientes líneas, para mostrar por pantalla la versión de Pandas instalada:

# Python
import pandas as pd
print("--------------------------------------")
print("Hi Pandas! Version: " + pd.__version__)
print("--------------------------------------")

Desde la consola, ejecutamos el script (trabajaremos con Python 3, con Python 2 serían los mismos comandos, pero en lugar de escribir python3, escribiremos python).

$ python3 hi-pandas.py 
 Hi Pandas! Version: 1.0.1

Si todo ha ido bien, la consola habrá mostrado el mensaje de bienvenida.

Ahora, vamos a cargar una tabla de datos sobre algunos libros y a hacer una serie de cálculos sobre ella. Para ello, añadimos a nuestro archivo lo siguiente:

raw_data = {'titulo': ['Clean Code', 'Head First Design Patterns', 'Artificial Intelligence with Python', 'Electrónica para Makers'], 
        'autor': ['Robert C. Martin', 'Eric Freeman', 'Prateek Joshi', 'Paolo Aliverti'], 
        'paginas': [464, 694, 446, 376],
        'precio': [35.40, 41.00, 45.74, 23.70],
        'puntuacion': [4.6, 4.5, 3.5, 4.4]
}

Creamos un DataFrame y lo mostramos por consola:

df = pd.DataFrame(raw_data, columns = ['titulo', 'autor', 'paginas', 'precio', 'puntuacion'])
print(df)

Por último, vamos a probar a hacer unas operaciones estadísticas básicas. Para ello, calculamos el precio medio, la puntuación media y el número máximo y mínimo de páginas:

print("Precio medio:", df["precio"].mean())
print("Puntuación media:", df["puntuacion"].mean())
print("Número de páginas (máximo):", df["paginas"].max())
print("Número de páginas (mínimo):", df["paginas"].min())

Si todo ha ido bien, nos mostrará por consola el siguiente resultado:

--------------------------------------
Hi Pandas! Version: 1.0.1
--------------------------------------
                                titulo             autor  paginas  precio  puntuacion
0                           Clean Code  Robert C. Martin      464   35.40         4.6
1           Head First Design Patterns      Eric Freeman      694   41.00         4.5
2  Artificial Intelligence with Python     Prateek Joshi      446   45.74         3.5
3              Electrónica para Makers    Paolo Aliverti      376   23.70         4.4
Precio medio: 36.46
Puntuación media: 4.25
Número de páginas (máximo): 694
Número de páginas (mínimo): 376

El código lo tengo compartido en mi cuenta de GitHub:

https://github.com/diegorys/ml-py-examples/blob/master/hi/hi-pandas.py

Deja una respuesta

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies