En base a la siguiente información de la siguiente base de datos https://fivethirtyeight.com/features/the-ultimate-halloween-candy-power-ranking/

  1. Importar las bibliotecas necesarias para: Hacer cálculos, graficar, poder hacer correcto manejo de datos
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

2. Visualizar los datos

df = pd.read_csv('candy-data.csv')
df.head(10)

3. Responder:

  • Cantidad de datos (columnas y filas)
df.shape
(85, 13)
  • Cuáles son las columnas
df.columns
Index(['competitorname', 'chocolate', 'fruity', 'caramel', 'peanutyalmondy',
'nougat', 'crispedricewafer', 'hard', 'bar', 'pluribus', 'sugarpercent',
'pricepercent', 'winpercent'],
dtype='object')
  • Que información podemos tener del dataset

Tipos 

df.dtypes
competitorname       object
chocolate int64
fruity int64
caramel int64
peanutyalmondy int64
nougat int64
crispedricewafer int64
hard int64
bar int64
pluribus int64
sugarpercent float64
pricepercent float64
winpercent float64
dtype: object

Describe

df.describe()

Indicar valore nulos

df.isnull().sum()
chocolate 0
fruity 0
caramel 0
peanutyalmondy 0
nougat 0
crispedricewafer 0
dtype: int64

Visualizar con seaborn

4. Enumera mínimo 5 preguntas que podrías hacerte (aún no pienses en si se pueden responder) basado en en dataset

  • ¿Cuál es el ingrediente más apetecido?
  • ¿Cuál es el ingrediente que menos se consume en los dulces?
  • ¿Qué es lo que buscan las personas en un dulce?
  • ¿Cuáles son los dulces más apetecidos?
  • ¿Cuáles son los dulces menos apetecidos?

2 comments on “Día 5 #100daysofcode dataset candy power parte I

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *