Empezamos con Machine Learning ¡Que emoción! 

Paso 1: Importar las bibliotecas

import numpy as np
import pandas as pd

Estas son dos de las bibliotecas esenciales que utilizaremos en ML 

  • Pandas: Biblioteca utilizada para importar y administrar los conjuntos de datos
  • Numpy: Biblioteca con funciones matemáticas

Paso 2: Importar conjunto de datos

dataset = pd.read_csv('data1 - Hoja 1.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

Los datos geralmente los vamos a encontrar en archivos CSV. Usamos el método read_csv de pandas para leer un archivo local. Luego realizamos un matriz y un vector separados de variables independientes y dependientes de dataset

Recordemos la que hace la función iloc

.iloc usa números enteros para leer y escribir datos en un DataFrame. Además selecciona la posición del elemento en el dataset 

Paso 3: manejo de los datos faltantes

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

Los datos puedes faltar debido a muchas razones, pero debemos manejarlos para no reducir el rendimiento del modelo de aprendizaje. Para esto podemos reemplazar los valores faltantes por la media de toda la columna. Para eso usamos la función imputer de sklearn.preprocessing. 

Paso 4: codificación de datos categóricos

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

Los datos categóricos son variables que contienen etiquetados en lugar de valores númericos. En nuestro ejemplo son los valores de Si o No, esto no se puede usar en ecuaciones matemáticas por lo que debemos pasar estos valores a númericos. Para esto importamos la clase Label encoder y One Hot encoder. 

Crear una variable dummie 

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

Paso 5: dividir los conjuntos de datos en conjuntos de entrenamiento y conjuntos de prueba

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

Dividimos los datos en dos partes, uno para entrenar el modelo (conjunto de entrenamiento) y el otro para probar el rendimiento del modelo entrenado (conjunto de prueba) Para esto importamos el método train test split de sklearn.cross_validation

Paso 6: escalado de características

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)

Para estandarizar y normalizar importaremos standardscaler 

La clase sklearn.preprocessing.StandardScaler estandariza los datos eliminando la media y escalando los datos de forma que su varianza sea igual a 1.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *