Hace poco tiempo me encontré con mi primera práctica de estadística con Numpy en Data science. Y para resumir todo y no aburrir a nadie, no sabia nada (Yo vi bioestadística en la universidad hace mil años y no recordaba mucho) así que fue una clase que me dejo bastantes dudas que solo esforzándome mucho logré solucionar. Así que aquí te cuento todo eso que necesitas saber de estadística para Data science y no morir entre las miles de gráficas y números. Tal Vez este post se divida en varios, aún no lo se, pero espero que si eres nuevo en este mundo te sirva mucho esta información. Hubiera dado mil vidas por encontrarme algo así mientras estudiaba. 

Lo primero: Te voy a dar una serie de consejos, tips, como quieras llamarlo para que la tarea sea mucho más fácil 

  1. Desgloza cada problema en pequeños problemitas (enseñado en mil ocasiones por Yeison Daza 🍉) La primera vez que me encontré con el notebook de ejercicios de estadística, no entendia absolutamente nada. Fue como cuando no sabes nadar pero igual te tiran al agua, asi mismo. La única forma de entenderlo fue enlistar los pequeños problemas para solucionarlos y asi lograr completar los ejercicios
  2. No debes saberlo todo, para que aprenderte una fórmula, o un comando, o una forma de escribir código que crees correcta, es desperdiciar tiempo en practicar lo que debes hacer. Aprende lo básico, aprende definiciones, etc. Como me dijo mi profesora un buen programador o científico de datos no es aquel que se las sabe todas, es aquel que sabe como y con que solucionar un problema
  3. Google es tu amigo, Google te tiene la solución, la respuesta y hasta la pregunta, es cuestión de aprender a buscar. 
  4. Disfruta los pequeños logros, yo festeje mi primer holamundo en python, y ahora festejo mi primer histograma. Y cada pequeño paso me lo he celebrado, porque hace un mes no sabia ni que era python (o bueno como funcionaba), así que…me entenderán 

Ahora si vamos 

Algo que si o si debes saber es que es una distribución, y te la defino de forma sencilla: La distribución de un conjunto de datos es una lista función que muestra todos los valores posibles (o intervalos) de los datos y frecuencia con la que aparecen. Te dejo un ejemplo lo más simple del mundo para que entiendas distribución, frecuencia, y que preguntas se pueden responder si tenemos estos datos

Otra cosa que es importante saber es conocer la forma de las distribuciones: Lo más simple que debes saber es si es simétrica o asimétrica. Y que la simétricas pueden ir hacia la derecha o la izquierda (aquí empieza hablar uno de colas)

Ahora debemos saber que las distribuciones pueden dividirse en varias, tales como:

  • Uniforme discreta
  • Uniforme continua
  • Binomial 
  • Normal 
  • Chi cuadrado
  • T de student

Pero solo vamos a necesitar diferenciar la más comunes en estadística de data science que son

  • Discretas
  • Continuas

Para entender mejor este tema tuve que acudir a un libro que puedo decir que me salvo la vida durante una tarde de frustración y es….stadistic for dummies. Se que suena increíble, pero la forma de explicar y de manejar cualquier tema es maravillosa, fácil de entender pero sorprendente mente completo, 10/10 para este libro

DETERMINAR SI LA VARIABLE ES DISCRETA O CONTINUA

En mi clase aprendí que no debes saberlo todo, no debo aprenderme nada de memoria, pero si aprender a diferenciar ciertas cosas, por ejemplo: Como identificar si una variable es discreta o continua 

Variables aleatorias discretas.

Si los resultados posibles de una variable aleatoria pueden enumerarse utilizando números enteros (por ejemplo 0, 1, 2… 10; o 0, 1, 2, 3), la variable aleatoria es discreta.

Una variable aleatoria discreta es infinita numerable si sus valores posibles pueden enumerarse pero no tienen un final concreto. Por ejemplo, el número de accidentes ocurridos en un determinado cruce a lo largo de un período de diez años puede adoptar los valores siguientes: 0, 1, 2…(sabes que la lista termina en algún momento pero no sabes cuándo, así que incluyes todos los números)

Variables aleatorias continuas.

Si los resultados posibles de una variable aleatoria únicamente pueden describirse utilizando un intervalo de números reales (por ejemplo, todos los números reales desde 0 hasta infinito), la variable aleatoria es continua

Las variables aleatorias continuas generalmente representan mediciones, por ejemplo el tiempo necesario para completar una tarea (un minuto y diez segundos, un minuto y veinte segundos, etc.) o el peso de un recién nacido

Ya conociendo si la variable es discreta o continúa podemos determinar que camino tomar. Primer paso: HECHO

Después el camino sigue: Identificar la distribución o densidad de la variable ya identificada.

Y aquí te ayudo en algunos:

Identificar una variable binomial 

Una variable aleatoria es binomial (es decir, tiene una distribución binomial) cuando se cumplen las cuatro condiciones siguientes:

1. Hay un número fijo de intentos (n).

2. Cada intento tiene dos resultados posibles: éxito o fracaso.

3. La probabilidad de éxito (la llamaremos p) es la misma en cada intento.

4. Los intentos son independientes, es decir, el resultado de un intento no influye en el resultado de los demás. Siendo X el número total de éxitos en n intentos; si se cumplen las cuatro condiciones, X tiene una distribución binomial con una probabilidad de éxito(en cada intento)igual a p

Identificar una variable Poisson

1 La probabilidad de que el fenómeno no ocurra en un intervalo de longitud 0 es 1.

2 El número de ocurrencias en dos intervalos que no se solapan es independiente.

3 La probabilidad de que se produzcan un número dado de ocurrencias en un intervalo depende de la longitud del intervalo pero no de su localización.

4 Para intervalos pequeños, la probabilidad de que se produzca exactamente una ocurrencia se puede considerar proporcional a la longitud del intervalo.

5 Para intervalos pequeños, la probabiliad de que se produzca más de una ocurrencia tiende a cero más rápido que la longitud del intervalo.

Les voy a compartir un cuadrito, que aunque no es lo más lindo de este mundo me ayuda a recordar y a identificar las variables discretas

DETERMINAR UNA DISTRIBUCIÓN NORMAL

Todas las distribuciones normales tienen ciertas propiedades. Estas propiedades sirven para determinar la posición relativa de un resultado en concreto dentro dela distribución,y para encontrar probabilidades. Las propiedades de una distribución normal son las siguientes: 

  • Su forma es simétrica (es decir, si la cortas por el centro, la mitad izquierda es la imagen especular dela mitad derecha). 
  • Su distribución muestra una elevación en el centro,con colas que bajan por ambos lados. 
  • La media y la mediana son iguales y se encuentran exactamente en el centro dela distribución (debido a la simetría). 
  • Su desviación estándar es la distancia entre la media y el punto de inflexión (el lugar donde la curva pasa de ser convexa a cóncava). 

Y aquí te dejo otro cuadrito que me ayuda con las variables continuas

Y creo que es todo por este post, básicamente lo que necesitas saber de estadística para desenvolverte un poco mejor en Numpy y en data science en general. 

Espero que les sirva muchísimo y no duden en preguntarme cualquier cosa

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *