class: slideInRight, middle # Introducción al análisis de variables categóricas ## Distribución de Frecuencias y Tablas de Contingencia ### Sebastián Muñoz-Tapia --- class: slideInRight, middle ## Antes de comenzar: ¿Qué tal la prueba? --- class: slideInRight, middle background-image: url("tablas/itaru.jpg") background-size: cover --- class: slideInRight, middle ### Itaru --- class: slideInRight, middle background-image: url("tablas/mrrobot.png") background-size: cover --- class: slideInRight, middle ## Mr.Robot --- class: slideInRight, middle background-image: url("tablas/lain.png") background-size: cover --- class: slideInRight, middle ## Lain --- class: slideInRight, middle background-image: url("tablas/bm.png") background-size: cover --- class: slideInRight, middle ## Verity Green --- class: slideInRight, middle background-image: url("tablas/divino.png") background-size: cover --- class: slideInRight, middle ## Divino Anticristo --- class: slideInRight, middle ### ¿Qué tienen en común estos personajes? --- class: slideInRight, middle ### Hay estereotipos de género y de personalidad asociados a la programación, los computadores y las matemáticas? --- class: slideInRight, middle ### Pero hay **otros referentes** --- class: slideInRight, middle .pull-right[ ### [Libro-aqui](https://data-feminism.mitpress.mit.edu/bienvenida) ] .pull-left[  ] --- class: slideInRight, middle background-image: url("tablas/Alexandra.gif") background-size: cover --- class: slideInRight, middle ## Alexandra Elbakyan --- class: slideInRight, middle background-image: url("tablas/aaron-swartz.jpg") background-size: cover --- class: slideInRight, middle ## Aaron Swartz [documental](https://www.youtube.com/watch?v=NfY91teCXds) --- class: slideInRight, middle background-image: url("tablas/rladies.png") background-size: cover --- class: slideInRight, middle  --- class: slideInRight, middle  [Spotify](https://open.spotify.com/show/7lWhQJfw0DCtXNYH2V1j1N?si=ecEfx3fKTH-yKqT4CpWJ7Q) --- class: slideInRight, middle  [ver](https://bastianolea.github.io/shiny_apps/) --- class: slideInRight, middle ## Perder el miedo a la programación, la estadística y la investigación cuantitativa (no es necesariamente contraria a la cualitativa) --- class: slideInRight, middle ## Contenido 0. Tipos de análisis de datos 1. ¿Qué es la distribución de frecuencias? 2. Cálculo de las frecuencias absolutas y relativas. 3. Principales elementos de una distribución de frecuencias 4. Ejemplo 1: Religión de un grupo de personas. 5. Ejemplo 2: Raza de un conjunto de personas 4. ¿Qué son las tablas de contingencia? 5. Organización de las proporciones. 6. Proporciones por filas. 7. Proporciones por columnas. 8. Proporciones totales. 9. Conclusiones. 10. Ir a la práctica... --- class: slideInRight, middle ## Según cantidad de variables - *Análisis univariado*: + Se enfoca en examinar **una** sola variable. + Por ejemplo, si queremos analizar la cantidad de personas por género en una población, estaríamos realizando un análisis univariado. - *Análisis bivariado*: + Examina la relación entre **dos** variables. + Por ejemplo, si queremos examinar cómo la edad de una persona afecta su nivel de educación, estaríamos realizando un análisis bivariado. - *Análisis multivariado*: + Examina de la relación entre **tres o más** variables. + Por ejemplo, si queremos examinar cómo la edad, el género y la educación afectan la probabilidad de que una persona vote, estaríamos realizando un análisis multivariado. --- class: slideInRight, middle <img src="tablas/unibimulti.png" style="width:100%; height:auto;"> --- class: slideInRight, middle ## Según tipos de variables - *Análisis de variables cuantitativas*: + Examina variables **numéricas**, como la edad, el ingreso o la estatura. - *Análisis de variables cualitativas*: + Examina variables **categóricas**, como el género, la etnia o la religión. - *Análisis de variables cuantitativas y cualitativas*: + Examina la relación entre variables cuantitativas y cualitatitvas. + Por ejemplo, si existe una diferencia de salarios entre hombres y mujeres. - **¿Qué pasa con las ordinales?**: Usualmente, se tratan como cualitativas. A veces, cuándo tienen cantidad suficiente de categorías, se utilizan algunas medidas cercanas a las cuantitativas --- class: slideInRight, middle ## Según si es descriptivo o inferencial - *Estadística descriptiva*: + Describe, resume variables que refieren directamente al universo. + Por ejemplo, el CENSO. - *Estadística inferencial*: + Examina variables que refieren a una muestra del universo. + Realiza **inferencias** a través de pruebas de hipótesis de significación estadística. + Por ejemplo, una encuesta. --- class: slideInRight, middle, center <img src="tablas/des-inf.png" style="width:70%; height:auto;"> --- class: slideInRight, middle ## De lo inferencial al machine learning/ inteligencia artificial - *Análisis inferencial*: + Examina variables que refieren a una muestra del universo. + Realiza pruebas de hipótesis de significación estadística. - *Machine Learning/Inteligencia Artificial*: + Realiza procesos de **aprendizaje** mediante los algoritmos. + Algoritmo se alimenta de mediciones anteriores y se pueden ir actualizando. + Por ejemplo, Algoritmos de recomendación de consumos culturales (Spotify, Netflix, etcétera). --- class: slideInRight, middle, center <img src="tablas/ml.png" style="width:70%; height:auto;"> --- class: slideInRight, middle <img src="tablas/red.png" style="width:100%; height:auto;"> --- class: slideInRight, middle # Ejemplos <img src="tablas/unibimulti.png" style="width:100%; height:auto;"> --- ## Análisis univariado: - *Distribución de frecuencias*: + Se utiliza para examinar la frecuencia con la que ocurre cada valor en una **variable cualitativa** o una **cuantitativa en rangos**. Por ejemplo, si queremos saber cuántas personas de una muestra tienen cierta religión, podemos hacer una distribución de frecuencias de la variable "religión" para identificar cuántas personas están en cada rango de edad. - *Promedios, mediana y moda*: + Se utilizan para resumir la información de una variable **cuantitativa**. El promedio indica el valor promedio de una variable, la mediana indica el valor central de una variable y la moda indica el valor más común de una variable. --- class: slideInRight, middle #Ejemplos, continuación... ## Análisis bivariado: - *Tablas de contingencia*: + Examina la relación entre dos **variables categóricas**. Por ejemplo, para entender cómo el género y la preferencia política están relacionados, podemos hacer una tabla de contingencia que muestre cuántas personas de cada género prefieren cada partido político. - *Correlaciones*: + Examina la relación entre dos **variables cuantitativas**. Por ejemplo, para saber si hay una relación entre la altura y el peso, podemos calcular la correlación entre estas dos variables y ver si hay una relación positiva, negativa o no hay relación entre ellas. --- class: slideInRight, middle #Ejemplos, continuación... ## Análisis multivariado: - *Regresiones multiples*: + Examina la relación entre una *variable dependiente* y *varias variables independientes cuantitativas*. Por ejemplo, si queremos saber cómo la edad, el género y el nivel educativo afectan el salario, podemos hacer una regresión que nos permita analizar cómo estas tres variables están relacionadas con el salario. - *Análisis factorial*: + Examina la *relación entre varias variables cuantitativas*. Por ejemplo, si queremos saber cómo se relacionan los diferentes tipos de actividades culturales que las personas realizan, podemos hacer un análisis factorial que nos permita identificar los factores subyacentes que explican la relación entre estas actividades. --- class: slideInRight, middle #Ejemplos, continuación... ## Análisis descriptivo: - *Total de estudiantes de una universidad*: Examinar el puntaje de todos los estudiantes de antropología de la Universidad Alberto Hurtado. ## Análisis inferencial: - *Muestra de estudiantes de una universidad*: Examinar el puntaje de una muestra de los estudiantes de antropología de la Universidad Alberto Hurtado. --- class: slideInRight, middle, inverse # Tipos de análisis * Pueden distinguirse al considerar: .pull-left[ *Cantidad de variables*: - univariado, bivariados, multivariados *Si es*: - un análisis descriptivo - un análisis inferencial ] .pull-right[ *Tipo de variables*: - si utilizan variables categóricas, cuantitativas o ambas. *Si es *: - inferencial o utiliza machine learning/ inteligencia artificial ] --- class: slideInRight, middle ## Preguntas?... - Si tiene que analizar la relación entre nivel socioeconómico y votación en las últimas elecciones... + ¿Cuáles serían sus variables? + ¿Qué tipos de variables son? + ¿Qué tipos de análisis univariados realizaría? + ¿Qué tipo de análisis bivariados realizaría? - Si tiene que analizar la relación entre edad e ingresos salariales... + ¿Cuáles serían sus variables? + ¿Qué tipos de variables son? + ¿Qué tipos de análisis univariados realizaría? + ¿Qué tipo de análisis bivariados realizaría? --- class: slideInRight, middle # Distribución de Frecuencias ## Introducción - La distribución de frecuencias es una herramienta estadística que nos permite conocer **cómo se distribuyen** los datos en una muestra o población. - La distribución de frecuencias puede ser construida para variables cuantitativas y cualitativas. - Para trabajar con cuantitativas se deben recodificar. - En una distribución de frecuencias, se agrupan los datos en clases o intervalos, y se cuenta la frecuencia de cada clase. --- class: slideInRight, center <img src="tablas/f_religion2.png" style="width:60%; height:auto;"> --- class: slideInRight, middle ## Cálculo de las frecuencias absolutas y relativas - La **frecuencia absoluta** de una clase es el número de observaciones que caen en cada clase. - La frecuencia relativa de una clase es la **proporción** de observaciones que caen en esa clase respecto al total de observaciones. - La frecuencia relativa puede ser expresada como un **porcentaje**. --- class: slideInRight, middle <table class=" lightable-classic" style="font-family: Cambria; width: auto !important; margin-left: auto; margin-right: auto;"> <caption>Distribución de frecuencias de Relgión</caption> <thead> <tr> <th style="text-align:left;"> Religion </th> <th style="text-align:right;"> Frecuencia </th> <th style="text-align:right;"> % </th> <th style="text-align:right;"> % Acumulado </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Protestante </td> <td style="text-align:right;"> 10846 </td> <td style="text-align:right;"> 50.71 </td> <td style="text-align:right;"> 50.71 </td> </tr> <tr> <td style="text-align:left;"> Católica </td> <td style="text-align:right;"> 5124 </td> <td style="text-align:right;"> 23.96 </td> <td style="text-align:right;"> 74.66 </td> </tr> <tr> <td style="text-align:left;"> Ninguna </td> <td style="text-align:right;"> 3523 </td> <td style="text-align:right;"> 16.47 </td> <td style="text-align:right;"> 91.13 </td> </tr> <tr> <td style="text-align:left;"> Cristiana </td> <td style="text-align:right;"> 689 </td> <td style="text-align:right;"> 3.22 </td> <td style="text-align:right;"> 94.35 </td> </tr> <tr> <td style="text-align:left;"> Judía </td> <td style="text-align:right;"> 388 </td> <td style="text-align:right;"> 1.81 </td> <td style="text-align:right;"> 96.17 </td> </tr> <tr> <td style="text-align:left;"> Otra </td> <td style="text-align:right;"> 224 </td> <td style="text-align:right;"> 1.05 </td> <td style="text-align:right;"> 97.21 </td> </tr> <tr> <td style="text-align:left;"> Budismo </td> <td style="text-align:right;"> 147 </td> <td style="text-align:right;"> 0.69 </td> <td style="text-align:right;"> 97.90 </td> </tr> <tr> <td style="text-align:left;"> Inter o no confesional </td> <td style="text-align:right;"> 109 </td> <td style="text-align:right;"> 0.51 </td> <td style="text-align:right;"> 98.41 </td> </tr> <tr> <td style="text-align:left;"> Musulmana/Islam </td> <td style="text-align:right;"> 104 </td> <td style="text-align:right;"> 0.49 </td> <td style="text-align:right;"> 98.90 </td> </tr> <tr> <td style="text-align:left;"> Cristiana ortodoxa </td> <td style="text-align:right;"> 95 </td> <td style="text-align:right;"> 0.44 </td> <td style="text-align:right;"> 99.34 </td> </tr> <tr> <td style="text-align:left;"> Hinduismo </td> <td style="text-align:right;"> 71 </td> <td style="text-align:right;"> 0.33 </td> <td style="text-align:right;"> 99.67 </td> </tr> <tr> <td style="text-align:left;"> Otra religión oriental </td> <td style="text-align:right;"> 32 </td> <td style="text-align:right;"> 0.15 </td> <td style="text-align:right;"> 99.82 </td> </tr> <tr> <td style="text-align:left;"> Nativa americana </td> <td style="text-align:right;"> 23 </td> <td style="text-align:right;"> 0.11 </td> <td style="text-align:right;"> 99.93 </td> </tr> <tr> <td style="text-align:left;"> No sabe </td> <td style="text-align:right;"> 15 </td> <td style="text-align:right;"> 0.07 </td> <td style="text-align:right;"> 100.00 </td> </tr> </tbody> </table> --- class: slideInRight, middle ## Principales elementos de una distribución de frecuencias - **Clases o intervalos**: son los rangos de valores en los que se divide el conjunto de datos. - **Frecuencia absoluta**: es el número de observaciones en cada clase. - **Frecuencia relativa**: es la proporción de observaciones en cada clase respecto al total de observaciones. - **Frecuencia acumulada**: es la suma de las frecuencias absolutas hasta una determinada clase. --- class: slideInRight, middle #Ejemplos ###Edad de los habitantes de una comunidad indígena - En este caso, las **clases** podrían ser los **rangos de edad** (por ejemplo, 0-10 años, 11-20 años, 21-30 años, etc.), y las **frecuencias absolutas** permitirían conocer **cuántas personas** hay en cada rango de edad. Además, se podría calcular la frecuencia relativa para conocer la **proporción** de personas en cada rango de edad. ### Idioma materno de una población - En este caso, las categorías podrían ser los distintos idiomas hablados por los integrantes de la población (por ejemplo, español, mapudungun, aymara, etc.). Las frecuencias absolutas permitirían conocer cuántas personas tienen cada idioma materno y las frecuencias relativas la proporción de la población que habla cada idioma materno.. --- class: slideInRight, middle ## Representación gráfica de la distribución de frecuencias - Cuado queremos representar variables cuantitativas, la distribución de frecuencias puede ser representada gráficamente con un **histograma**, un polígono de frecuencias o un gráfico de barras. - Estos gráficos nos permiten visualizar la distribución de los datos y las características más relevantes de la distribución. --- ```r alturas <- c(1.70, 1.78, 1.75, 1.65, 1.68, 1.72, 1.85, 1.62, 1.80, 1.76, 1.73, 1.90, 1.69, 1.74, 1.79) hist(alturas, breaks = 5, main = "Distribución de Frecuencias de Alturas", xlab = "Alturas", ylab = "Frecuencia") ``` <img src="clase_6_files/figure-html/unnamed-chunk-3-1.png" width="100%" /> --- class: slideInRight, middle <img src="clase_6_files/figure-html/unnamed-chunk-4-1.png" width="100%" /> - ¿Qué indica el eje Y? ¿Cómo está midiendo? - ¿Qué indica el eje x? --- class: slideInRight, middle, inverse ## ¿Qué son las tablas de contingencia? - En la investigación antropológica, a menudo se utilizan las tablas de contingencia para analizar la relación entre **dos o más variables categóricas**. - Las tablas de contingencia presentan los datos en una tabla de dos o más dimensiones, con las categorías de una variable en una dimensión y las categorías de la otra variable en la otra dimensión. - Son útiles en antropología para analizar las relaciones entre variables categóricas, como la relación entre la etnia y la religión o la relación entre la etnia y la preferencia política. --- class: slideInRight, middle, inverse - Las tablas de contingencia pueden ser analizadas utilizando técnicas estadísticas como el **chi-cuadrado** y el **test exacto de Fisher** para determinar si la relación entre las variables es significativa o no. --- class: slideInRight, middle ##Organización de variables - En una tabla de contingencia, la **variable independiente** se coloca en la parte superior y la **variable dependiente** se coloca en el lateral izquierdo. - Por ejemplo, si se está analizando la relación entre la etnia y la religión, se colocaría la etnia en la parte superior (variable independiente) y la religión (variable dependiente) en el lateral izquierdo. --- class: slideInRight, center <img src="tablas/vivsvd.png" style="width:60%; height:auto;"> --- class: slideInRight, middle ## Ejemplo tabla de contingencia Religión y Raza .pull-left[ <img src="tablas/c_religionxraza1_c.png" style="width:100%; height:auto;"> ] .pull-right[ *Se sacaron proporciones*: - cálculadas por columnas - variable dependiente: religión a la izquierda - variable independiente: raza de forma superior - pregunta: ¿Cómo varía el % en las diferentes columans considerando el % total? ] --- class: slideInRight, middle ##Organización de las proporciones - La decisión sobre **dónde colocar las proporciones** en una tabla de contingencia depende del objetivo de la investigación y de las hipótesis que se quieren probar. Las proporciones se pueden calcular por filas, por columnas o por toda la tabla. --- class: slideInRight, middle ## Proporciones por **filas** - Permite observar las **proporciones** de *cada categoría de la variable dependiente* dentro de cada *categoría de la variable independiente*. - Este tipo de análisis es útil para comparar la frecuencia relativa de la variable dependiente para cada categoría de la variable independiente. - Por ejemplo, si se desea analizar la relación entre la etnia y la religión, se puede colocar la proporción de cada religión dentro de cada etnia --- class: slideInRight, middle ## Proporciones por **columnas** - Permite observar las **proporciones** de *cada categoría de la variable independiente* dentro de *cada categoría de la variable dependiente*. - Este tipo de análisis es útil para comparar la frecuencia relativa de la variable independiente para cada categoría de la variable dependiente. - Por ejemplo, si se desea analizar la relación entre la religión y la etnia, se puede colocar la proporción de cada etnia dentro de cada religión. - Este tipo de análisis es el más utilizado (y quizás claro) para observar cómo la variable dependiente se relaciona con la variable independiente. - Si el porcentaje del total en cada categoría es superior al **5%** se suele poner señalar que hay influencia. --- class: slideInRight, middle ## Proporciones por **totales** - Permite observar las **proporciones** de *cada categoría de la variable dependiente* y de la *variable independiente* en **conjunto**. - Este tipo de análisis es útil para obtener una **visión general** de la relación entre las dos variables. - Por ejemplo, si se desea analizar la relación entre la edad y el género, se puede colocar la proporción de cada religión y cada etnia en toda la tabla. --- class: slideInRight, middle, inverse ## En resumen - Los posibles tipos de análisis se pueden distinguir al considerar la **cantidad de variables** (univariado, bivariados, multivariados) y si **utilizan variables categóricas, cuantitativas o ambas**. - La **distribución de frecuencias** permite organizar los datos en clases o intervalos y contar la cantidad de observaciones en cada clase, lo que permite obtener información sobre la frecuencia y la proporción de valores dentro de cada intervalo. - **Las tablas de contingencia** son una herramienta útil para analizar la relación entre dos variables en la investigación antropológica. + En ellas, es importante identificar la *variable independiente* y la *variable dependiente* para poder interpretar correctamente los resultados. + El uso de *porcentajes en columnas* permite visualizar cómo la variable dependiente se ve afectada por la variable independiente.