En las últimas semanas el coronavirus ha sido el tema de conversaciòn del mundo entero, circulan todo tipo de noticias, comentarios, etc (algunas poco reales) asi que decidi tomar los conjuntos de datos acerca del coronavirus (que se han sacado de forma verídica) explorarlos y ver que conclusiones podemos obtener. 

Los datasets puedes encontrarlo aquí Los datos tienen información diaria sobre el número de casos, muertes y recuperación en 2019.

 El conjunto de datos, “covid_19_data.csv”, contiene las siguientes columnas:

  1. Sno — Serial Number
  2. ObservationDate — Date of the observation in MM/DD/YYYY
  3. Province/State — Province or state of the observation
  4. Country/Region — Country of observation
  5. Last Update — Time in UTC at which the row is updated for the given
  6. Confirmed — Cumulative number of confirmed cases until that date
  7. Deaths — Cumulative number of deaths until that date
  8. Recovered — Cumulative number of recovered cases until that date

Empezamos a explorar

import pandas as pd
df = pd.read_csv("covid_19_data.csv")
df

Ahora podemos generar un histograma de casos acumulativos confirmados:

import seaborn as sns 
import matplotlib.pyplot as plt
sns.set()
plt.title("Confimed Cases Histogram")
df['Confirmed'].hist(bins = 10)

Ahora vamos a ver gráficamente los casos recuperados:

plt.title("Recovered Cases Histogram")
sns.set()
df['Recovered'].hist(bins = 200)

Y vamos a hacer lo mismo para las muertes

plt.title("Deaths Histogram")
sns.set()
df['Deaths'].hist(bins = 200)

Ahora vamos a intentar responder preguntas específicas: 

  1. ¿Cuál es el número de casos confirmados en los últimos 7 días en USA
df[df['Country/Region'] == 'US'].groupby('Last Update').agg('sum')[-7:]

2. ¿Cómo se comparan los nuevos casos diarios confirmados entre la provincia de Guangdong y la provincia de Zhejiang?

df = df[(df['Country/Region'] == 'Guangdong') | (df['Country/Region'] == 'Zhejiang')].copy()
df['Last Update] = pd.to_datetime(df['Last Update'])
df2 = df(['Last Update', 'Country/Region']).agg('sum')
ax = df2['confirmed'][:, 'Guangdog'].plot(figsize=(15,10), label='Guangdong', grid=True, marker='*')
df2['confirmed'][:, 'Zhejiang'].plot(ax=ax, label='Zhejiang', grid=True, title='New Confirmed Comparison', marker='o')
ax.legend(loc='upper right')

Vamos a ver el número total de casos confirmados, muertos y curados en China

fig = utils.tsplot_conf_dead_cured(df, title= 'Total Confirmed, Dead, and Cured Counts')plt.show()

Esta es una exploración básica que nos ayuda a concluir

  • Los casos de personas curadas en china, está alcanzando su cumbre (es decir los casos confirmados se están curando de forma relacionada)
  • Las muertes tienen una baja significativa (es decir, la enfermedad no mata a no ser que existan factores agregados)

Ahora voy a agregar alguna data que ya ha sido visualizada para encontrar más conclusiones

Número de casos confirmados por el virus en China vs el resto del mundo 

Podemos ver claramente que China es el epicentro del coronavirus y tiene la mayor cantidad de casos confirmados o podemos decir que China tiene la mayor cantidad de personas infectadas con el virus.

Propagación del coronavirus en todo el mundo hasta la última fecha registrada.

  • En 10 días, el Virus se extendió a todo el mundo
  • El número de muertos comienza a aumentar (pero tengamos en cuenta, que aumenta, porque se está propagando por TODO el mundo)

Número de muertes en China vs resto del mundo

Propagación de CoronaVirus en todo el mundo a través de la animación.

Ahora quiero agregar una data EXTREMADAMENTE importante para poder ubicarnos correctamente en los datos y no obtener una conclusión sesgada 

Hay factores que definen la mortalidad, sintomatología y comportamiento del virus (este es un gráfico corregido en cuanto a los rangos de visualización de datos) 

Factores importantísimos:

  • La edad: Si, si la persona tiene más de 80 años, tiene más probabilidad de morir gracias al virus 
  • Si presenta una enfermedad respiratoria o cardiovascular (puede morir por el virus)

Pero porque digo que estos datos para mi son los más importantes: 

  • Si usted es mayor de 80 años, una gripa puede matarlo
  • Si usted tiene una enfermedad respiratoria, una gripa puede matarlo

Segun las estadisticas el 80% de las personas que han muerto por el coronavirus presentaba alguna de las anteriores condiciones

Ahora vamos a ver el porcentaje de personas que han sobrevivido al coronavirus. Y quiero que diferenciemos este gráfico, con el que lanzo la BBC 

El de la BBC, da miedo cierto? Parece que nadie sobrevive.

Que podemos concluir 

Es importante que las visualizaciones, especialmente en torno a crisis como COVID-19, sean claras en los datos que representan. El título del cuadro de la BBC dice que describe la “tasa de mortalidad” del coronavirus, pero eso no es cierto con respecto a estos datos: representa el resultado de 44,000 casos de coronavirus en China según lo informado por el Centro Chino para el Control y Prevención de Enfermedades. Calcular la tasa de mortalidad de una nueva enfermedad es muy difícil y propenso a errores (OMS, 19 de febrero). Simplemente no podemos decir cuál es la tasa de mortalidad del coronavirus en una etapa temprana de una epidemia.

Gracias por leerme

Para más data:

  • The original data set is present over Kaggle but here what I do. I modified the Kaggle data and now this data has geographical locations of all the places where Coronavirus patients are detected.
  • To get the geolocations I used Google Geocoding API
  • Corona infected people dataset link
  • Geocoding_api_data link
  • Complete code file Kaggle Notebook

Referencias:

[1] On Feb 11, 2020, WHO decided to name the disease to COVID-19: https://www.who.int/dg/speeches/detail/who-director-general-s-remarks-at-the-media-briefing-on-2019-ncov-on-11-february-2020

[2] On Jan 30, 2020, WHO declared an international health emergency: https://www.who.int/news-room/detail/30-01-2020-statement-on-the-second-meeting-of-the-international-health-regulations-(2005)-emergency-committee-regarding-the-outbreak-of-novel-coronavirus-(2019-ncov)

[3] On Feb 13, the Chinese coronavirus death toll exceeds 1,000: https://globalnews.ca/news/6533678/china-coronavirus-death-toll-who/

[4] GitHub link of the codes: https://github.com/jianxu305/nCov2019_analysis

1 comment on “Explorando y entendiendo los datos obtenidos sobre el coronavirus

  1. Long time supporter, and thought I’d drop a comment.

    Your wordpress site is very sleek – hope you
    don’t mind me asking what theme you’re using? (and don’t mind if I steal it?
    :P)

    I just launched my site –also built in wordpress like yours– but the theme slows (!) the
    site down quite a bit.

    In case you have a minute, you can find it by searching for “royal cbd” on Google (would appreciate
    any feedback) – it’s still in the works.

    Keep up the good work– and hope you all take care
    of yourself during the coronavirus scare!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *