Google+ Seguidores

viernes, 31 de agosto de 2018

Las 7 mejores librerías de Python para trabajar con Datos

Introducción:

Hola amigos de Internet. Les doy la bienvenida a Mi Diario Python el mejor blog en español para Aprender Python.

No acostumbro a hacer este tipo de artículos, pero en esta ocasión, les traigo una recopilación de "Las 7 librerías de Python para trabajar con Datos".

Esto nos servirá a todos los que trabajamos o nos gusta la ciencia de datos. Cada librería tienen métodos que cumplen objetivos diferentes, como el procesamiento de datos o la visualización de los mismos. Pero todos nos permitirán trabajar, de forma muy eficiente y ordenada, con datos.

Todas estas librerías son las que utilizo cotidianamente. Si quieres recomendarme alguna otra, con gusto la probare.

¿Te gusta la idea? Entonces comencemos.

Imagen relacionada

#1 Pandas: Manipulación de Datos

Pandas es un paquete de Pyhton muy popular y de mucha utilidad. Todo aquel que trabaje con Ciencia de Datos deberia conocer este paquete.

Pandas nos permite crear Series (marcos unidimensionales) y los DataFrames (marcos bidimensionales). Con todas los métodos que nos ofrece Pandas, podemos visualizar y trabajr con datos de manera muy fácil y sencilla.

Instalación: pip install pandas. (https://pypi.org/project/pandas/)

A continuación, te mostrare un ejemplo de un DataFrame creado con Pandas. El DataFrame contendra algunos de datos de prueba:

import pandas as pd # importamos pandas

columnas = ['Nombre', 'Edad', 'Genero', 'Id'] # Columnas del DataFrame

datos = pd.DataFrame([['Carmen', 26, 'F', 1743],
                      ['Pedro', 39, 'M', 9264],
                      ['Maria', 28, 'F', 8362],
                      ['Julio', 35, 'M', 2537]],
                      columns=columnas)
print(datos)
  
   Nombre  Edad Genero    Id
0  Carmen    26      F  1743
1   Pedro    39      M  9264
2   Maria    28      F  8362
3   Julio    35      M  2537


Pagina Oficial de Pandas: https://pandas.pydata.org/.

#2 Matplotlib: Visualización de Datos

Resultado de imagen para matplotlib logo

Matplotlib es una herramienta que nos permite graficar datos de manera muy sencilla. 

Nos permite generar gráficos de barras, gráficos de dispersión gráficos de lineas y más.

Instalación: pip install matplotlib. (https://pypi.org/project/matplotlib/)

Vemos un ejemplo muy sencillo:

import matplotlib.pyplot as plt
import numpy as np
#Primer conjunto de datos
x = np.array([5,8,10]) y = np.array([12,16,6])
#Segundo conjunto de datos
x2 = np.array([6,9,11]) y2 = np.array([6,15,7])
#Con los metodos bar podremos agregar el numero de barras que nos sea conveniente
plt.bar(x, y, align="center")
plt.bar(x2, y2, color="g", align="center")
#Con el metodo title, le asignamos un titulo a nuestro gráfico
plt.title("Gráfico de Barras")
#Con el metodo show mostramos el grafico en pantalla
plt.show()


Observa más ejemplos como este: http://www.pythondiario.com/search?q=matplotlib.

Matplotlib tambien nos permite generar gráficos en tercera dimensión (3D). Veamos un ejemplo:

# Importamos los modulos necesarios
from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt
import numpy as np
 
fig = plt.figure()
ax1 = fig.add_subplot(111, projection='3d')

# Definimos los datos
x3 = [1,2,3,4,5,6,7,8,9,10]
y3 = [5,6,7,8,2,5,6,3,7,2]
z3 = np.zeros(10)

dx = np.ones(10)
dy = np.ones(10)
dz = [1,2,3,4,5,6,7,8,9,10]

# utilizamos el método bar3d para graficar las barras
ax1.bar3d(x3, y3, z3, dx, dy, dz)

# Mostramos el gráfico
plt.show()




#3 NumPy: Manipulación de Arrays

NumPy, es el paquete fundamental si tu intensión es trabajar con el calculo científico. NumPy es la abreviación de "Numerical Python", y nos proporciona una gran cantidad de métodos para trabajar con arrays y matrices.

Instalación: pip install numpy. (https://pypi.org/project/numpy/)

Veamos un ejemplo de como crear un ndarray con numpy y Python:

import numpy as np
width = [1.65, 1.82, 1.23, 1.56, 1.72, 1.98, 1.65]
np_width = np.array(width)
print(type(np_width))

<class 'numpy.ndarray'>


#4 Scikit-Learn: Aprendizaje Automatico

Scikit-Learn es una librería con que nos permite entrenar modelos de Aprendizaje Automático, tales como: Random Forests, SVM, Regresión Lineal y Logística, k-Nearest y mucho más.

Scikit-Learn es una librería muy potente y que no te puede hacer falta:

Instalación: pip install scikit-learn. (https://pypi.org/project/scikit-learn/).

Veamos un ejemplo de un clasificador utilizando el modelo de vecinos más cercanos:

from sklearn.neighbors import KNeighborsClassifier #Importamos al método 
from sklearn.datasets import load_iris #Importamos el conjunto de datos
from sklearn.model_selection import train_test_split 

iris = load_iris() #Guardamos el conjunto de datos Iris en una variable

#Dividimos nuestros datos en "conjunto de entrenamiento y de prueba
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target) 

knn = KNeighborsClassifier(n_neighbors=5) #Declaramos al método

knn.fit(x_train, y_train) #Ajustamos a al método

knn.score(x_test, y_test) # El porcentaje de acertamiento del método

0.97368421052631582


# 5 TensorFlow: Aprendizaje Profundo

TensorFlow™ es una biblioteca de software libre que se utiliza para realizar cálculos numéricos mediante diagramas de flujo de datos. Los nodos de los diagramas representan operaciones matemáticas y las aristas reflejan las matrices de datos multidimensionales (tensores) comunicadas entre ellas. Gracias a la flexibilidad de la arquitectura, solo necesitas una API para desplegar el sistema informático de una o varias CPU o GPU en un escritorio, servidor o dispositivo móvil. En su origen, TensorFlow fue fruto del trabajo de investigadores e ingenieros de Google Brain Team que formaban parte de la organización de investigación del aprendizaje automático de Google. Su objetivo era realizar investigaciones en el campo del aprendizaje automático y las redes neuronales profundas. A pesar de que este era su propósito inicial, se trata de un sistema lo bastante general como para poder aplicarse en muchos otros campos.

Este texto proviene de: https://www.tensorflow.org/.

Instalación: pip install tensorflow. (https://pypi.org/project/tensorflow/)

Tensorflow es muy potente y es utilizada por grandes de la industria informatica. Una librería que no te puede hacer falta.

Guía y primeros pasos con Tensorflow: https://www.tensorflow.org/tutorials/.

# 6 Seaborn: Visualización de Datos

Matplotlib no es la única opción que tenemos para visualizar nuestra datos.

Tenemos a Seaborn, una herramiento muy utilizada y muy fácil de usar.

Nos permite generar gráficos de barras, gráficos de dispersión, entre otros.

Instalación: pip install seaborn. (https://pypi.org/project/seaborn).

Veamos una imagen que nos muestra los resultados de gráficos con seaborn:



# 7 Theano: 

Theano es una librería de Python que define matrices multidimensionales, sí, igual que NumPy. También nos proporciona métodos para realizar operaciones y expresiones matemáticas. 

La librería también optimiza el uso de la GPU y la CPU, lo que hace que el rendimiento del cómputo intensivo de datos sea aun más rápido.

Instalación: pip install Theano. (https://pypi.org/project/Theano/)




 Con esto llegamos al nuestro final.

Sabes que sí quieres agregar algo a esta lista, puedes dejarme tu sugerencia en los comentarios.

Mi nombre es Luis, y fue un placer compartir mis librerías con todos ustedes :D.

3 comentarios :
Write comentarios
  1. Excelente explicación de estas 7 librerías, Python es un lenguaje de programación muy robusto y fácil de aprender.

    ResponderEliminar
  2. Genial. Voy a considerarlo cuando realice manipulación de datos para mis proyectos.
    Gracias por compartir tus conocimientos.
    Sldos;

    ResponderEliminar

Tu comentario es importante y nos motiva a seguir escribiendo...

Powered by Blogger .