Skip to contents

Leer bases descargadas y combinarlas

Las bases descargads con descargar.inei() pueden ser leídas con leer.inei(). El módulo y los períodos deben ser especificados. Si más de una base es leída, la función producirá una lista. Por ejemplo, si tenemos descargados los primeros dos trimestres de 2011 en una carpeta, podemos leer ambos trimestres:

dir <- system.file("extdata", package = "enaho")
leido <- leer.inei(encuesta = "ENAHO", modulo = 37, periodos = 2011, tipo = c("t1","t2"), directorio = dir)
#> Leyendo 2 archivos.
#> Leyendo archivo 1 de 2.
#> Leyendo archivo 2 de 2.
leido
#> $`2011_Modulo37_t1`
#> # A tibble: 4,625 × 24
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO ESTRATO CODINFOR  P702
#>    <chr> <chr> <chr>    <chr>    <chr> <chr>    <dbl>   <dbl> <chr>    <dbl>
#>  1 2011  01    0007     049      11    010101       4       4 01           3
#>  2 2011  01    0007     075      11    010101       4       4 02           5
#>  3 2011  01    0027     047      11    010504       4       7 02           2
#>  4 2011  01    0027     047      11    010504       4       7 02           3
#>  5 2011  01    0027     047      11    010504       4       7 02           5
#>  6 2011  01    0027     047      11    010504       4       7 02           5
#>  7 2011  01    0027     108      11    010504       4       7 02           3
#>  8 2011  01    0027     108      11    010504       4       7 02           4
#>  9 2011  01    0027     109      11    010504       4       7 01           4
#> 10 2011  01    0027     110      11    010504       4       7 02           4
#> # ℹ 4,615 more rows
#> # ℹ 14 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>, FACTRIM <dbl>
#> 
#> $`2011_Modulo37_t2`
#> # A tibble: 3,940 × 24
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO ESTRATO CODINFOR  P702
#>    <chr> <chr> <chr>    <chr>    <chr> <chr>    <dbl>   <dbl> <chr>    <dbl>
#>  1 2011  04    0001     019      11    010101       4       4 02           1
#>  2 2011  04    0001     019      11    010101       4       4 02           2
#>  3 2011  04    0001     019      11    010101       4       4 02           3
#>  4 2011  04    0001     019      11    010101       4       4 02           4
#>  5 2011  04    0001     019      11    010101       4       4 02           5
#>  6 2011  04    0047     032      11    010201       7       4 02           2
#>  7 2011  04    0047     032      11    010201       7       4 02           3
#>  8 2011  04    0047     032      11    010201       7       4 02           4
#>  9 2011  04    0047     069      22    010201       7       4 02           6
#> 10 2011  04    0047     082      11    010201       7       4 02           1
#> # ℹ 3,930 more rows
#> # ℹ 14 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>, FACTRIM <dbl>

Y, usando combinar.inei() (o el argumento combinar en leer.inei) podemos combinar ambos trimestres. También podemos especificar si sólo queremos combinar las variables comunes o todas las variables:

combinar.inei(x = leido, combinarsolocomunes = FALSE)
#> # A tibble: 8,565 × 24
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO ESTRATO CODINFOR  P702
#>  * <chr> <chr> <chr>    <chr>    <chr> <chr>    <dbl>   <dbl> <chr>    <dbl>
#>  1 2011  01    0007     049      11    010101       4       4 01           3
#>  2 2011  01    0007     075      11    010101       4       4 02           5
#>  3 2011  01    0027     047      11    010504       4       7 02           2
#>  4 2011  01    0027     047      11    010504       4       7 02           3
#>  5 2011  01    0027     047      11    010504       4       7 02           5
#>  6 2011  01    0027     047      11    010504       4       7 02           5
#>  7 2011  01    0027     108      11    010504       4       7 02           3
#>  8 2011  01    0027     108      11    010504       4       7 02           4
#>  9 2011  01    0027     109      11    010504       4       7 01           4
#> 10 2011  01    0027     110      11    010504       4       7 02           4
#> # ℹ 8,555 more rows
#> # ℹ 14 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>, FACTRIM <dbl>

Leer bases directamente desde la web

Usando leer.inei.web() podemos leer las bases directamente desde la web, aplicando las mismas reglas que leer.inei():

leer.inei.web(encuesta = "ENAHO", modulo = 37, periodos = 2011, tipo = c("t1"))
#> Descargando 1 archivo.
#> Leyendo 1 archivo.
#> Leyendo archivo 1 de 1.
#> # A tibble: 4,625 × 24
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO ESTRATO CODINFOR  P702
#>    <chr> <chr> <chr>    <chr>    <chr> <chr>    <dbl>   <dbl> <chr>    <dbl>
#>  1 2011  01    0007     049      11    010101       4       4 01           3
#>  2 2011  01    0007     075      11    010101       4       4 02           5
#>  3 2011  01    0027     047      11    010504       4       7 02           2
#>  4 2011  01    0027     047      11    010504       4       7 02           3
#>  5 2011  01    0027     047      11    010504       4       7 02           5
#>  6 2011  01    0027     047      11    010504       4       7 02           5
#>  7 2011  01    0027     108      11    010504       4       7 02           3
#>  8 2011  01    0027     108      11    010504       4       7 02           4
#>  9 2011  01    0027     109      11    010504       4       7 01           4
#> 10 2011  01    0027     110      11    010504       4       7 02           4
#> # ℹ 4,615 more rows
#> # ℹ 14 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>, FACTRIM <dbl>

Leer sólo algunas variables

Debido a que las bases pueden ser muy grandes se recomienda sólo leer las variables requeridas. Para eso podemos usar variablesxperiodo() que nos indicará qué variables están presentes en cada período:

variablesxperiodo(modulo = 37, periodos = c(2011,2024),directorio = dir,tipo = "t1")
#>       Nombre 2011_t1 2024_t1
#> 1        AÑO       1       1
#> 2        MES       1       1
#> 3   CONGLOME       1       1
#> 4   VIVIENDA       1       1
#> 5      HOGAR       1       1
#> 6     UBIGEO       1       1
#> 7    DOMINIO       1       1
#> 8    ESTRATO       1       1
#> 9   CODINFOR       1       1
#> 10      P702       1       1
#> 11      P703       1       1
#> 12      P704       1       1
#> 13      P705       1       1
#> 14     P7061       1       1
#> 15     P7062       1       1
#> 16     P7063       1       1
#> 17     P7064       1       1
#> 18     P7065       1       1
#> 19    P706A1       1       1
#> 20    P706A2       1       1
#> 21    P706A3       1       1
#> 22    P706A4       1       1
#> 23 TICUEST01       1       1
#> 24   FACTRIM       1       0
#> 25    P706A5       0       1
#> 26    FACTOR       0       1

Así podemos saber qué variables están disponibles y sólo leer las que necesitamos con leer.inei() pero no con leer.inei.web():

vars <- c("AÑO","UBIGEO","DOMINIO","ESTRATO","P702","FACTRIM","FACTOR")
leer.inei(modulo = 37, periodos = c(2011,2024),directorio = dir,tipo = "t1",columnas = vars)
#> Leyendo 2 archivos.
#> Leyendo archivo 1 de 2.
#> Leyendo archivo 2 de 2.
#> $`2011_Modulo37_t1`
#> # A tibble: 4,625 × 6
#>    AÑO   UBIGEO DOMINIO ESTRATO  P702 FACTRIM
#>    <chr> <chr>    <dbl>   <dbl> <dbl>   <dbl>
#>  1 2011  010101       4       4     3    337.
#>  2 2011  010101       4       4     5    337.
#>  3 2011  010504       4       7     2    347.
#>  4 2011  010504       4       7     3    347.
#>  5 2011  010504       4       7     5    347.
#>  6 2011  010504       4       7     5    347.
#>  7 2011  010504       4       7     3    347.
#>  8 2011  010504       4       7     4    347.
#>  9 2011  010504       4       7     4    347.
#> 10 2011  010504       4       7     4    347.
#> # ℹ 4,615 more rows
#> 
#> $`2024_Modulo37_t1`
#> # A tibble: 6,083 × 6
#>    AÑO   UBIGEO DOMINIO          ESTRATO                            P702  FACTOR
#>    <chr> <chr>  <dbl+lbl>        <dbl+lbl>                          <chr>  <dbl>
#>  1 2024  010101 4 [Sierra Norte] 4 [ De 20 000 a 49 999 habitantes] 03      442.
#>  2 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   01      442.
#>  3 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   04      789.
#>  4 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   05      812.
#>  5 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   02      789.
#>  6 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   03      812.
#>  7 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   03      812.
#>  8 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   02      812.
#>  9 2024  010307 7 [Selva]        5 [De 2 000 a 19 999 habitantes]   02      812.
#> 10 2024  010701 7 [Selva]        4 [ De 20 000 a 49 999 habitantes] 04      770.
#> # ℹ 6,073 more rows

También podemos leer sólo las variables comunes con solocomunes = TRUE. Sin embargo, podría haber variables importantes (como los pesos) que cambien de nombre entre períodos:

leer.inei(modulo = 37, periodos = c(2011,2024),directorio = dir,tipo = "t1",solocomunes = TRUE)
#> Leyendo 2 archivos.
#> Leyendo archivo 1 de 2.
#> Leyendo archivo 2 de 2.
#> $`2011_Modulo37_t1`
#> # A tibble: 4,625 × 23
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO ESTRATO CODINFOR  P702
#>    <chr> <chr> <chr>    <chr>    <chr> <chr>    <dbl>   <dbl> <chr>    <dbl>
#>  1 2011  01    0007     049      11    010101       4       4 01           3
#>  2 2011  01    0007     075      11    010101       4       4 02           5
#>  3 2011  01    0027     047      11    010504       4       7 02           2
#>  4 2011  01    0027     047      11    010504       4       7 02           3
#>  5 2011  01    0027     047      11    010504       4       7 02           5
#>  6 2011  01    0027     047      11    010504       4       7 02           5
#>  7 2011  01    0027     108      11    010504       4       7 02           3
#>  8 2011  01    0027     108      11    010504       4       7 02           4
#>  9 2011  01    0027     109      11    010504       4       7 01           4
#> 10 2011  01    0027     110      11    010504       4       7 02           4
#> # ℹ 4,615 more rows
#> # ℹ 13 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>
#> 
#> $`2024_Modulo37_t1`
#> # A tibble: 6,083 × 23
#>    AÑO   MES   CONGLOME VIVIENDA HOGAR UBIGEO DOMINIO     ESTRATO CODINFOR P702 
#>    <chr> <chr> <chr>    <chr>    <chr> <chr>  <dbl+lbl>   <dbl+l> <chr>    <chr>
#>  1 2024  01    015024   069      11    010101 4 [Sierra … 4 [ De… 01       03   
#>  2 2024  01    015040   089      11    010307 7 [Selva]   5 [De … 01       01   
#>  3 2024  01    015040   110      11    010307 7 [Selva]   5 [De … 02       04   
#>  4 2024  01    015040   110      11    010307 7 [Selva]   5 [De … 02       05   
#>  5 2024  01    015040   132      11    010307 7 [Selva]   5 [De … 01       02   
#>  6 2024  01    015040   132      11    010307 7 [Selva]   5 [De … 01       03   
#>  7 2024  01    015040   132      11    010307 7 [Selva]   5 [De … 01       03   
#>  8 2024  01    015040   153      11    010307 7 [Selva]   5 [De … 01       02   
#>  9 2024  01    015040   153      11    010307 7 [Selva]   5 [De … 01       02   
#> 10 2024  01    015052   012      11    010701 7 [Selva]   4 [ De… 02       04   
#> # ℹ 6,073 more rows
#> # ℹ 13 more variables: P703 <dbl+lbl>, P704 <dbl+lbl>, P705 <dbl+lbl>,
#> #   P7061 <dbl+lbl>, P7062 <dbl+lbl>, P7063 <dbl+lbl>, P7064 <dbl+lbl>,
#> #   P7065 <dbl+lbl>, P706A1 <dbl+lbl>, P706A2 <dbl+lbl>, P706A3 <dbl+lbl>,
#> #   P706A4 <dbl+lbl>, TICUEST01 <dbl+lbl>