Ir

¿Dudas sobre el censo? Le pedimos a un matemático que analizara la consistencia de los datos

Tipo de Nota: 
Información

¿Dudas sobre el censo? Le pedimos a un matemático que analizara la consistencia de los datos

Historia completa Temas clave

Los datos resultan muy sorprendentes e imprevistos, pero este análisis preliminar de su consistencia, realizado por un físico matemático de la Universidad de California, no muestra anomalías relevantes.

Tras un año de espera, por fin tenemos datos del Censo 2018. No se había realizado uno en Guatemala desde 2002. La población, entonces, quedó en 11,237,196 personas. Desde entonces solo hemos tenido estimaciones de los indicadores de la población guatemalteca. Los distintos análisis no se han hecho esperar. 

Un dato que ha llamado mucho la atención es la sorprendentemente baja cifra de población para el 2018: 14,901,286 habitantes. Muchas de las estimaciones utilizadas sobre la población del país andan por encima de dicha cifra. Con el afán de realizar un primer acercamiento y verificación, experimenté con la concordancia de los datos.

Una forma de verificarlos es partir de la idea de que los datos no son del todo fiables. ¿Cómo se pueden fabricar los datos de un censo para que parezcan reales? Parece una tarea sin mucha complejidad. Sin embargo, detrás de esa empresa hay una limitante práctica: generar datos artificialmente que parezcan reales es una tarea muy difícil.

Existen muchas investigaciones sobre la generación de información y cómo ésta, cuando es fabricada de forma artificial, tanto por humanos como por máquinas, contiene patrones de aleatoriedad que pueden ser descubiertos. Un ejemplo de esto son las encuestas de números aleatorios, en donde los números terminados en 7 resultan ser los más comunes entre los encuestados, contradiciendo así la idea de que sean aleatorios.

De esta manera, si estuviéramos frente a un conjunto de datos fabricado en lugar de tabulado, estos patrones deberían de emerger. Para saber si sucedió esto revisé, de manera exploratoria, las correlaciones entre las diferentes variables medidas en el censo. El portal de Internet del INE muestra 25 tablas de Excel con los datos. De estas analicé cinco de ellas referentes a la distribución de la población, sexo, parentesco dentro del hogar, estado conyugal, lugar de nacimiento y pueblo de origen.

Con esto es posible encontrar que la distribución de hombres y mujeres es más o menos uniforme en el país. Asimismo la distribución de solteros y de jefes de familia (hogares en los que un hombre o una mujer es el jefe de familia). Para nuestros propósitos, esta uniformidad puede resultar sospechosa, pero debido a las variables analizadas es congruente.

La diferencia comienza a marcarse cuando se analiza la distribución de pueblos y de municipios de origen. Acá los datos presentan una correlación muy baja. Esto quiere decir que estas distribuciones no presentan una estructura aleatoria de datos sino más bien, una distribución que representa un conjunto real de datos. Esto se hace más evidente al calcular las correlaciones a nivel de municipios y no solo en departamentos.

Como segunda comprobación hice un chequeo cruzado de datos: los de escolaridad de la población que arroja el censo con los datos anuales que están en el portal del Ministerio de Educación.

A primera vista, la comparación entre los datos del Censo y los publicados por el MINEDUC no coinciden. El Ministerio de Educación reportó una cantidad de más de 4.2 millones de estudiantes inscritos en 2018 mientras en el Censo se reportaba solamente 3.6 millones de personas con asistencia escolar. Para verlo en más detalle, es posible analizar la distribución de estos datos a nivel departamental. El MINEDUC lleva el control de dos variables relacionadas: Alumnos Inscritos y Alumnos Inscritos en Edad. Al comparar estas dos variables con la variable censada de Asistencia Escolar, es posible ver que todas siguen la misma tendencia a nivel departamental, con pequeñas variaciones. La Asistencia siempre es más baja que la Inscripción. Eso puede sugerir un efecto de la deserción escolar y no de una fabricación de datos.

Finalmente, decidí realizar una estimación propia de la población esperada en 2018 partiendo de datos publicados anteriormente. En el portal del Ministerio de Salud Pública y de Asistencia Social, están los datos de nacimientos a nivel nacional desde el año 2002, año del último Censo oficial. Asimismo, es posible obtener estimaciones de la mortalidad para cada año. Estamos hablando de unos 380,000 nacimientos al año y de unas 78,000 muertes aproximadamente. También es posible estimar los guatemaltecos que emigran cada año del país en unos 50,000. Con esto se obtiene que para el año 2018, la población debería andar cerca de unos 15.2 millones. Esta cifra supone un 2% de error con respecto al Censo 2018.

Si bien los datos resultan muy sorprendentes e imprevistos, este análisis preliminar de su consistencia no muestra anomalías relevantes.

También es importante tomar en cuenta posibles errores de tabulación, datos faltantes y porcentaje de cobertura del Censo. Esperemos que el INE publique más información sobre estos parámetros para así tener una imagen más clara de la calidad de los datos publicados.

Autor
Edición
Autor
Edición