Exploración de Datos Municipales: Tasa de Paro y Actividad en Andalucía

Clasificado en Matemáticas

Escrito el en español con un tamaño de 10,1 KB

Al importar los datos que vienen en el fichero EjercicioDescriptiva.txt, ponemos como nombre a la hoja de datos datos. Esta hoja no contiene datos faltantes.

Importamos los datos mediante: datos <- read.table("EjercicioDescriptiva.txt")

Al lanzar: names(datos)

vemos que los nombres de las variables son los siguientes:

[1] "CodigoINE" "Municipio" "Tasaactividad2001" "LineasADSL2007"

[5] "Edadmedia2007" "Rentafamiliarporhabitante2003" "Crecimientovegetativo2006" "Numeroparados2007"

[9] "Poblacion2007" "Poblacion2006" "Poblacion2003" "Poblacion2001"

[13] "Provincia" "tasalineasADSL2007" "tasacrecimientovegetativo2006" "tasaparo2007"

Calcular la media de la variable tasaparo2007: mean(datos$tasaparo2007)

Calcular el coeficiente de variación de la variable tasaparo2007: sd(datos$tasaparo2007)/mean(datos$tasaparo2007)

Obtener el coeficiente de asimetría de la variable tasaparo2007

library(e1071): skewness(datos$tasaparo2007)

Obtener un histograma de la variable tasaparo2007: hist(datos$tasaparo2007)
Obtener un diagrama de caja de tasaparo2007 e identificar qué municipios andaluces destacan significativamente del resto como atípicos.

diagrama <- boxplot(datos$tasaparo2007)

filtro <- (datos$tasaparo2007 > diagrama$stats[5]) | (datos$tasaparo2007 < diagrama$stats[1])

n <- sum(filtro)

x <- identify(rep(1.25,n), datos$tasaparo2007[filtro], datos$tasaparo2007[filtro])

Segundo ejercicio. Sobre la variable Tasaactividad2001

1. Calcular la media.

mean(datos$Tasaactividad2001)

2. Calcular el coeficiente de variación.

sd(datos$Tasaactividad2001)/mean(datos$Tasaactividad2001)

3. Obtener el coeficiente de asimetría.

library(e1071)

skewness(datos$Tasaactividad2001)

4. Obtener un diagrama de caja e identificar qué municipios andaluces destacan significativamente del resto como atípicos.

n <- length(datos$Tasaactividad2001)

nombres <- datos$Municipio

boxplot(datos$Tasaactividad2001)

identify(rep(1,n), datos$Tasaactividad2001, nombres)



4. Provincia [ID: 1410052]

Vamos a importar unos datos que vienen en el fichero EjercicioDescriptiva.txt. Esos datos tienen decimales separados por comas. Lo hacemos así:

datos <- read.csv2("EjercicioDescriptiva.txt")

Ahora queremos ver el nombre de las variables. Lo hacemos así:

names(datos)

El resultado es el siguiente

[1] "CodigoINE" "Municipio" "Tasaactividad2001" "LineasADSL2007"

[5] "Edadmedia2007" "Rentafamiliarporhabitante2003" "Crecimientovegetativo2006" "Numeroparados2007"

[9] "Poblacion2007" "Poblacion2006" "Poblacion2003" "Poblacion2001"

[13] "Provincia" "tasalineasADSL2007" "tasacrecimientovegetativo2006" "tasaparo2007"

Obtener la distribución de frecuencias absolutas de la variable Provincia.

tabla <- table(datos$Provincia)

Obtener la distribución de frecuencias relativas.

prop.table(tabla)

Obtener un diagrama de barras.

barplot(tabla)

Obtener un diagrama de sectores.

pie(tabla)

Entradas relacionadas: