Primera parte



Descargar 499.5 Kb.
Página1/38
Fecha de conversión02.05.2018
Tamaño499.5 Kb.
  1   2   3   4   5   6   7   8   9   ...   38



Tablas de contingencia en la detección de sesgo

DETECCIÓN DE SESGO EN LOS ÍTEMS MEDIANTE ANÁLISIS DE TABLAS DE CONTINGENCIA


Aura-Nidia Herrera*
Universidad Nacional de Colombia, Colombia

Juana Gómez-Benito**


Universidad de Barcelona, España

María Dolores Hidalgo-Montesinos***


Universidad de Murcia, España

Resumen

El sesgo en los instrumentos de medición psicológica es un tema que ha suscitado tanta polémica como trabajos de investigación en las últimas cuatro décadas, como resultado se dispone hoy de una gama de propuestas de procedimientos para detectar aquellos ítems que tienen funcionamiento diferencial entre grupos de género, raza, etnia, idioma o cualquier otra variable irrelevante para los propósitos de la prueba. Una categoría de estos procedimientos se basa en el análisis de las tablas de contingencia que se pueden conformar a partir de tres variables: una medida de la magnitud del atributo, el grupo al que pertenece el examinado y la puntuación en el ítem de interés. El objetivo de este trabajo es presentar una revisión de los principales procedimientos que se han propuesto hasta el momento desde esa perspectiva, así como sus ventajas y limitaciones en las aplicaciones prácticas. Con base en ésta, se brindan algunas sugerencias y recomendaciones para los potenciales usuarios de las técnicas revisadas.



Palabras clave: Sesgo en los ítems, DIF, tablas de contingencia, Mantel-Haenszel, Regresión logística, modelos loglineales

Abstract

Bias in psychological measurement has provoked as much controversy as research during the last four decades. As a consequence, a variety of procedures for detecting items which show differential item functioning between groups of sex, race, culture, language or other irrelevant variables are readily available nowadays. A class of these procedures is based on the analysis contingency tables which comprise three variables: a measure of the ability level, the group of the examinee and the item response. This paper presents a review of these methods, its advantages and limitations in practical works. Finally, some suggestions and recommendations are presented for potential users of the revised techniques.



Key words: Item bias, DIF, contingency tables, Mantel-Haenszel, logistic regression, loglineal methods.

Introducción


Desde que en la jerga psicométrica se adoptaran términos como “sesgo”, “funcionamiento diferencial de los ítems” (popularizado como DIF, por su abreviatura en inglés) y “funcionamiento diferencial de los tests” (DTF), la producción académica sobre el tema ha ido en permanente ascenso. En un estudio bibliométrico que cubrió la producción de artículos científicos publicados en el último cuarto del siglo XX, Gómez Benito, Hidalgo Montesinos, Guilera Ferré & Moreno Torrente (2005) encontraron que más del 80% de tales publicaciones se hicieron en la última década (1991 a 2000) y dentro de éstos casi las tres cuartas partes se publicaron en el último quinquenio. Este ascenso no resulta sorprendente si se entiende desde una perspectiva no sólo académica sino también social y política: la preocupación cada vez más generalizada por garantizar la igualdad de oportunidades y el tratamiento equitativo de los individuos y grupos sociales, dentro de las diferencias individuales y culturales. Lo que puede resultar sorprendente es que todavía algunas entidades responsables de procesos de evaluación, cuyos resultados puedan tener implicaciones en la asignación de cupos u oportunidades educativas o laborales, no hayan incorporado dentro de sus procesos una estrategia para detectar el posible sesgo en los instrumentos que diseñan o utilizan. Este trabajo presenta una revisión de una clase de tales estrategias: las que se basan en el análisis de tablas de contingencia.

Los trabajos de Eelles, Havighurst, Herrick & Tyler (1951) y de Jensen (1969) se han ganado el calificativo de pioneros en el tema del sesgo en las pruebas psicológicas1, el primero por mostrar empíricamente que algunos ítems de pruebas de inteligencia se dejaban afectar por diferencias culturales, y el segundo por la enorme polémica que desató en torno a la explicación (genética vs. ambiental) de las diferencias individuales evidenciadas por las pruebas; sin embargo, varias décadas antes Stern (1914) había mostrado que el rendimiento en pruebas de inteligencia variaba según la clase social y Binet & Simon (1916) habían eliminado algunos ítems en la nueva versión de su prueba de inteligencia porque eran sensibles a efectos culturales. Hoy, tras las acaloradas discusiones de los sesenta -muchas de las cuales se adelantaron fuera de la esfera académica- después del trabajo de Jensen (1980) que buscaba despejar el término “sesgo” de las connotaciones éticas, sociales y políticas para entenderlo como un problema técnico, y de la oportuna propuesta de Holland & Thayer (1988) para introducir la expresión Funcionamiento Diferencial de los Ítems (DIF) como un problema diferente al controvertido “sesgo”, parece haberse llegado a un relativo acuerdo sobre los términos y haberse logrado un importante desarrollo tecnológico y metodológico para cuidar que los instrumentos de medición psicológica funcionen de manera similar en grupos de género, raciales, culturales o étnicos diferentes. Debe anotarse, sin embargo, que el relativo acuerdo sobre los términos no supuso superar la preocupación inicial sobre las diferencias entre estos grupos, en cuanto al rendimiento en las pruebas y, por ende, en las oportunidades educativas y laborales; prueba de esto puede encontrarse en los más recientes escritos de Jensen (1998); Jensen (2000) o el número especial de la revista Inteligencia editado por Gottfredson (1997). De hecho, el sesgo y el DIF siguen considerándose temas “candentes” dentro de la psicometría (Gómez-Benito & Hidalgo-Montesinos, 2003).

En palabras de Muñiz (1998) “un metro estará sistemáticamente sesgado si no proporciona la misma medida para dos objetos o clases de objetos que de hecho miden lo mismo, sino que sistemáticamente perjudica a uno de ellos” (p.236). Pero el metro puede hacer referencia bien a una prueba como un todo, o bien a los elementos que la componen; el énfasis de la producción académica de los últimos años ha estado en los segundos y este trabajo versa también sobre el DIF. Se entiende que un ítem funciona diferencialmente, o tiene DIF, cuando su puntuación varía en función de alguna variable como raza, género, etnia, idioma, grupo cultural, etc., que es irrelevante para el constructo psicológico que pretende medir la prueba. Visto así, el reto para la psicometría ha sido el diseño de estrategias que permitan comparar la probabilidad de acierto de un ítem entre grupos iguales en la magnitud del atributo medido; esta aproximación tiene varias implicaciones metodológicas. La primera y más evidente es que la detección de DIF supone una comparación de grupos, generalmente dos, uno denominado focal que se considera desfavorecido y que frecuentemente es minoritario, y otro conocido como de referencia por cuanto se considera un estándar de comparación del grupo focal. Las curvas ascendentes de la figura 1 representan la probabilidad de acierto (eje y) en tres ítems diferentes en función de la magnitud del atributo expresada en una escala de media 0 y desviación estándar 1 (eje x) para dos grupos. Puede observarse que mientras en el ítem i igual magnitud del atributo corresponde a igual probabilidad de acierto para los dos grupos, en los otros dos ítems no ocurre lo mismo; estos últimos presentan DIF. Sin embargo, la probabilidad de acierto en el ítem j es inferior para el grupo 2 en todos los valores de x mientras que para el ítem k la probabilidad es menor para el grupo 1 cuando x es inferior a 1, pero esto cambia cuando x es alta. El ítem j tiene DIF uniforme en contra del grupo 2 mientras que el ítem k tiene DIF no uniforme en contra del grupo 1 cuando la magnitud del atributo es baja, y en contra del grupo 2 cuando la magnitud del atributo es alta.

De otra parte, el solo hecho de que un instrumento de medida arroje resultados sistemáticamente inferiores para un grupo en comparación con otro no constituye evidencia de sesgo, ya que si efectivamente existen diferencias entre los grupos en lo que la prueba mide es apenas de esperarse que sus resultados las muestren. Estas diferencias se conocen en el lenguaje técnico como impacto o diferencias válidas. En la figura 1 también se representan las distribuciones de la magnitud del atributo, mientras que para el ítem j esta distribución es igual para los dos grupos, el grupo 1 tiene en promedio, mayor magnitud del atributo medido por el ítem i que el grupo 2 y éste último tiene, en promedio, mayor magnitud del atributo medido por el ítem k. En resumen, el ítem i presenta impacto y no tiene DIF, el ítem j tiene DIF uniforme y no presenta impacto y, finalmente el ítem k tiene DIF no uniforme e impacto.



Figura 1. Probabilidad de acierto en función de la magnitud del atributo (curvas ascendentes) y distribución de la magnitud del atributo medido por tres ítems en dos grupos.

Para la psicometría ha constituido un verdadero reto diseñar procedimientos que no confundan DIF e impacto comparando individuos o subgrupos iguales en cuanto a la magnitud del atributo objeto de la prueba. Si se dispone de un criterio válido externo a la prueba (otro metro no sesgado) resulta sencillo equiparar los grupos y comparar su probabilidad de acierto en el ítem, pero en ausencia de dicho criterio, que es la situación usual en la práctica, la única evidencia empírica disponible es el vector de respuestas del examinado al instrumento, el cual incluye los ítems presuntamente sesgados. El problema tiene entonces una circularidad que debe romperse y que constituye lo que Fidalgo, (1996a) denomina la paradoja de los procedimientos para evaluar DIF, puesto que conduciría a que “sólo es posible evaluar correctamente el DIF cuando es innecesario” (p. 435).

Buena parte de la producción de las últimas décadas ha estado dedicada a proponer procedimientos que satisfagan esas exigencias metodológicas y que sean viables y efectivos en la práctica. Camilli & Shepard (1994) clasifican tales propuestas en tres categorías: a) los métodos basados en el análisis de varianza y en la Teoría Clásica de los Test (TCT), b) los que se basan en la Teoría de Respuesta al Ítem (TRI) y c) los que se basan en el análisis de tablas de contingencia (TC). En Ferreres (1998) se puede encontrar una revisión de algunas otras clasificaciones que obedecen a criterios diferentes. Siguiendo la clasificación de Camilli & Shepard (1994), este trabajo se ocupa de los métodos basados en el análisis de TC. Los métodos incluidos en su primera categoría ya están en desuso puesto que fallaron en la equiparación de los grupos y en consecuencia no lograron distinguir DIF de impacto; por su parte, los métodos basados en la TRI gozan de una exquisita fundamentación matemática y tienen muchas fortalezas metodológicas pero sus exigencias en cumplimiento de supuestos y tamaños de muestra los hacen poco aplicables en algunas condiciones prácticas; por el contrario, la tercera categoría de métodos pueden resultar más intuitivos, sencillos, de bajo costo computacional y menos exigentes, por lo que se constituyen en una opción viable para los constructores de pruebas en condiciones reales poco favorables.



Dentro de los métodos basados en el análisis de tablas de contingencia se pueden distinguir dos enfoques: los que se fundamentan en la prueba de hipótesis sobre la igualdad de proporciones analizando tablas de contingencia bidimensionales, y los que generan modelos para el análisis de variables categóricas con tablas de más de dos dimensiones. Dentro de los primeros se encuentran algunas aplicaciones de la prueba , el método de estandarización y el Mantel-Haenszel (MH); mientras que dentro de los últimos se pueden incluir los modelos logit y log-lineales y la regresión logística (RL). Aquí se revisan estas técnicas haciendo especial énfasis en el MH y en la RL, dos de los más frecuentemente utilizados.



Compartir con tus amigos:
  1   2   3   4   5   6   7   8   9   ...   38


La base de datos está protegida por derechos de autor ©psicolog.org 2019
enviar mensaje

    Página principal
Universidad nacional
Curriculum vitae
derechos humanos
ciencias sociales
salud mental
buenos aires
datos personales
Datos personales
psicoan lisis
distrito federal
Psicoan lisis
plata facultad
Proyecto educativo
psicol gicos
Corte interamericana
violencia familiar
psicol gicas
letras departamento
caracter sticas
consejo directivo
vitae datos
recursos humanos
general universitario
Programa nacional
diagn stico
educativo institucional
Datos generales
Escuela superior
trabajo social
Diagn stico
poblaciones vulnerables
datos generales
Pontificia universidad
nacional contra
Corte suprema
Universidad autonoma
salvador facultad
culum vitae
Caracter sticas
Amparo directo
Instituto superior
curriculum vitae
Reglamento interno
polit cnica
ciencias humanas
guayaquil facultad
desarrollo humano
desarrollo integral
redes sociales
personales nombre
aires facultad