El Iris Dataset es un conjunto de datos clásico en el mundo de data science. Es la puerta de entrada a este mundo de los datos. Es un dataset que ya tiene sus años, ya que fue armado por Ronald Fisher en el año 1936.

Con el dataset de iris que podrás encontrar aquí vamos a:

  • Especies únicas existentes en el dataset
  • Obtener largo total del dataset
  • Rango de valores en los cuales se encuentran los atributos
  • Varianza de los atributos
  • Desvío estándar
  • Descripción estadística
  • Mostrar distribución de los datos mediante histogramas

Para empezar busque las características del data set que íbamos a manejar y algo así encontré

Ahora sabemos que vamos a hablar de flores, de sus pétalos, sépalos, etc. 

Ahora en mi notebook importe las librerias con las que debo trabajar 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn

Ahora importe el data set (del link de arriba)

df = pd.read_csv("iris.csv")
  1. Especies únicas y largo del dataset
especies = list(df["species"].unique())
print("Tipos de especies: %s\n" % especies)
print("Largo del dataset: %i\n" % len(df))

..

Tipos de especies: ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']

Largo del dataset: 150

Y aquí tenemos los tres tipos de especies que nos muestra el dataset

2. Rango del largo y ancho de pétalos y sépalos

print("Rango del largo del sépalo: [%s, %s]" % (min(df["sepal_length"]), max(df["sepal_length"])))
print("Rango del ancho del sépalo: [%s, %s]" % (min(df["sepal_length"]), max(df["sepal_length"])))
print("Rango del largo del pétalo: [%s, %s]" % (min(df["sepal_length"]), max(df["sepal_length"])))
print("Rango del ancho del pétalo: [%s, %s]\n" % (min(df["sepal_length"]), max(df["sepal_length"])))

Entendiendo un poco el código: 

Primero ¿Qué es el rango? 

El rango es otro estadístico utilizado para medir la diversidad en un conjunto de datos. El rango es la diferencia entre el valor más grande y el valor más pequeño del conjunto de datos. Es muy fácil de calcular; sólo tienes que poner los números en orden (del más pequeño al más grande) y hacer una resta

3. Varianza y desvío estándar

print("Varianza del largo del sépalo:\t %f" % np.var(df["sepal_length"]))
print("Varianza del ancho del sépalo:\t %f" % np.var(df["sepal_length"]))
print("Varianza del largo del pétalo:\t %f" % np.var(df["petal_length"]))
print("Varianza del ancho del pétalo:\t %f\n" % np.var(df["petal_length"]))
print("Desvío estandar del largo del sépalo\t %f" % np.std(df["sepal_length"]))
print("Desvío estandar del ancho del sépalo\t %f" % np.std(df["sepal_length"]))
print("Desvío estandar del largo del pétalo\t %f" % np.std(df["petal_length"]))
print("Desvío estandar del ancho del pétalo\t %f\n" % np.std(df["petal_length"]))

Entendiendo

¿Qué es la varianza? 

La varianza de una muestra o de un conjunto de valores, es la sumatoria de las desviaciones al cuadrado con respecto al promedio o a la media, todo esto dividido entre el número total de observaciones menos.

¿Qué es el desvío de estándar?

se refiere al grado de variabilidad (o dispersión) de los números de un conjunto de datos. La desviación estándar es el grado estándar (o típico) de desviación (o divergencia) respecto del promedio (o la media)

Con ambos puedo saber que tan dispersos están mis datos. 

Varianza del largo del sépalo:	 0.681122
Varianza del ancho del sépalo: 0.681122
Varianza del largo del pétalo: 3.092425
Varianza del ancho del pétalo: 3.092425

Desvío estandar del largo del sépalo 0.825301
Desvío estandar del ancho del sépalo 0.825301
Desvío estandar del largo del pétalo 1.758529
Desvío estandar del ancho del pétalo 1.758529

4. Ahora vamos a hacer la descripción estadística

Aquí podemos visualizar de cada columna de nuestro data set la cantidad, la media, el promedio, el mínimo, etc.

print("Descripción\n---")
print(df[df.columns[2:]].describe())

Descripción
---
petal_length petal_width
count 150.000000 150.000000
mean 3.758667 1.198667
std 1.764420 0.763161
min 1.000000 0.100000
25% 1.600000 0.300000
50% 4.350000 1.300000
75% 5.100000 1.800000
max 6.900000 2.500000

5. Distribución de los datos mediante histogramas

df.hist(
column=["sepal_length", "sepal_width", "petal_length", "petal_width", "species"],
figsize=(10, 10))

Puedes ver todo el código en mi Github aquí

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *