Introducción a Pandas

Estándar

En esta entrada, daré una pequeña introducción a Pandas, una librería que he usado durante el último año para mis tareas de análisis de datos.
Pandas trae la simplicidad y elegancia de Python al análisis de datos. Es parte de la colección de librerías científicas Scipy.

Hay dos tipos principales de estructuras de datos en Pandas:

  • Series: Arrays unidimensionales indexados.
  • DataFrame: colección de varias Series que comparten un índice común. Cada Series es una columna en el DataFrame, mientras que una fila está compuesta de todas las entradas que comparten un mismo valor de índice.

En entradas futuras, estas estructuras se repasarán con mayor detalle. Pandas provee la funcionalidad para utilizar y manipular la información almacenada en dichas estructuras. Se puede considerar que un DataFrame es equivalente a una hoja de cálculo de Excel.

La forma de trabajar con Pandas gira en torno a estos objetos. Una vez que los datos con los que se van a trabajar se han mapeado en el tipo de objeto apropiado, se pueden manipular usando los métodos disponibles para dicho objeto, por ejemplo Series.mean() para calcular la media de una Series, o DataFrame.apply() que aplica una función sobre cada columna o fila del DataFrame. Por supuesto, una de las operaciones más importantes es el acceso a valores individuales de las estructuras, que puede realizarse con Series.loc[] o DataFrame.loc[]. Esta función hace que las estructuras de datos de Pandas sean muy potentes, ya que permiten la selección múltiple y condicional de datos.

Pandas complementa la funcionalidad de manipulación de datos con un conjunto muy completo de funciones de lectura y escritura de datos desde archivos. Soporta una gran variedad de formatos, como CSV y XLS, pero también bases de datos como MySQL. Finalmente, Pandas también tiene capacidades muy básicas de representación gráfica de datos, aunque para obtener gráficos llamativos, es mejor usar librerías específicas.

En entradas futuras, entraré en más detalle en los aspectos específicos de Pandas, enfocándolos en las funciones que he encontrado más útiles en mi trabajo diario.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *