Confiabilidad y error de medición



Descargar 64 Kb.
Fecha de conversión28.01.2018
Tamaño64 Kb.

confiabilidad y error de medición
confiabilidad
es un índice de la calidad de las técnicas de evaluación. su indagacion está a cargo de quien elabora o adapta el instrumento en cuestión.

la teoría clásica de los tests (TCT) es útil para describir la influencia de los errores de medida en las puntuaciones observadas u obtenidas a través de instrumentos y sus relaciones con las puntuaciones verdaderas. se basa en el Modelo Lineal de Spearman, desarrollado principios de siglo XX.

si se acepta la posibilidad de medir en psicología, es necesario, según la TCT, asumir dos supuestos:

1-existen puntajes verdaderos, que reflejan puntualmente la realidad, que miden de modo exacto, sin error.

2-siempre que se realizan mediciones pueden cometerse errores.

la puntuación verdadera se define como lo que queda de la puntuación observada u obtenida a través de un test, una vez eliminados los errores de medida.



en psicología el puntaje verdadero no puede ser completamente calculado, dado su carácter ideal. por esta razón, el objetivo de los estudios que se realizan sobre la precisión de las puntuaciones obtenidas a través de instrumentos, es controlar y calcular el margen de error.
tipos de error
errores sistemáticos (validez)
las fuentes de errores sistemáticos son aquellas que desplazan las puntuaciones, en cierta dirección general, de una puntuación sistemáticamente elevada o baja. son errores constantes. x ejemplo, la balanza mal calibrada. el error sistemático, a pesar de introducir diferencias en el resultado de la medición, no cambia la variabilidad (la distribución de las puntuaciones de un grupo de sujetos en la variable que se está evaluando). los instrumentos que conllevan este tipo de error sistemático sobreestiman o subestiman, según el caso, el atributo evaluado (peso, en este ej.).

los errores sistemáticos pueden ser detectados a través del análisis de la validez.





errores no sistemáticos (confiabilidad)





son generados por las variaciones cuya causa es el azar.

dichas fuentes de error pueden haber sido generadas en la etapa de construcción de la técnica, en la administración, en la puntuación o en la interpretación de los resultados arrojados por la misma.

una de las posibles fuentes de este tipo de error, durante la construcción de la técnica, es el muestreo de contenido (dependiendo de los ítems incluidos en la técnica).

las fuentes de error que pueden ocurrir durante la administración de la técnica son aquellos que tienen cierta influencia en cambios azarosos en la atención o motivación del sujeto examinado, como las condiciones ambientales, el examinador, su estilo, su comportamiento. la subjetividad del evaluador no debe estar implicada en la puntuación. se deben analizar muy bien las instrucciones para evaluar la técnica y la claridad de los criterios de evaluación. los resultados podrían variar según el examinador que le ha tocado en suerte al sujeto.





confiabilidad de las puntuaciones





es un concepto análogo al de precisión.

la confiabilidad de una técnica psicométrica no se dirime en términos de confiable o no confiable. hay diferentes tipos y grados de confiabilidad.





repaso de conceptos estadísticos relacionados





varianza y desvío estándar





la variabilidad que encontramos en el conjunto de puntuaciones obtenidas puede expresarse como su varianza que se simboliza como s^2 (s al cuadrado), siendo la raíz cuadrada de ésta el llamado desvío estándar cuya notación es la letra s.

cualquier condición que se es relevante para el propósito de la prueba es considerada varianza de error.





coeficiente de correlación





se calcula partir de las puntuaciones obtenidas en una muestra en dos variables.





coeficiente de correlación                    interpretación

+1.00                                         correlación positiva perfecta

+0.90                                         correlacion positiva muy fuerte

+0.75                                         correlación positiva considerable

+0.50                                         correlación positiva media 

+0.10                                         correlación positiva débil

0.0                                      no existe correlación alguna entre las variables

-0.10                                         correlación negativa débil

-0.50                                         correlación negativa media

-0.75                                         correlación negativa considerable

-0.90                                         correlación negativa muy fuerte

-1.00                                         correlación negativa perfecta





el coeficiente de confiabilidad





es un número cuyo valor mínimo es 0, lo cual estaría indicando la inexistencia de varianza verdadera ya que toda es varianza de error, y su valor máximo es igual a 1, lo cual estaría indicando que no hay error, todo es varianza verdadera.

la dificultad principal para calcular la confiabilidad, es decir, calcular esta proporción, es que el único dato que se puede obtener de los resultados de la medición corresponde la varianza total, mientras que tanto la varianza verdadera como la de error son incógnitas. por tal motivo, a esta forma de calcular la confiabilidad se la denomina forma teórica, y al coeficiente obtenido de esta manera se lo llama coeficiente de confiabilidad teóricaya que de los tres datos de la fórmula hay dos que son desconocidos.







procedimientos empíricos para estimar el coeficiente de confiabilidad. tipos de confiabilidad





si se realizan dos mediciones con el mismo instrumento a una muestra de sujetos, en forma sucesiva o simultánea, y si además se supone que el constructo que se quiere evaluar no varió entre las dos mediciones, el conjunto de las discrepancias de los resultados entre la primera y segunda medición va representar en alguna medida el error de medición, lo cual es el primer paso para hallar la varianza de error. análogamente las consistencias entre la primera y segunda medición llevadas a cabo con el instrumento se van a representar la varianza verdadera.

existen diferentes métodos que permiten calcular empíricamente coeficiente de confiabilidad.

a partir de la implementación de estos métodos empíricos, se obtiene un coeficiente de confiabilidad. algunos son más sensibles a la consistencia entre los items, otros a la estabilidad temporal del puntaje, o a la confiabilidad del evaluador, entre otras alternativas.





métodos que requieren una sola aplicación:

división por mitades

formas paralelas (sin intervalo)

fórmulas Kuder-Richardson

coeficiente alfa de Cronbach

confiabilidad entre evaluadores





métodos que requieren repetidas aplicaciones:

test-retest

formas paralelas (con intervalo)

en todos los procedimientos es necesario disponer de al menos dos conjuntos de medidas paralelas de los mismos sujetos, para luego calcular entre ellas el coeficiente de confiabilidad de las técnicas. interesa analizar la variabilidad de las puntuaciones obtenidas por una muestra de sujetos (y no el puntaje obtenido por un solo sujeto), la dispersión de los puntajes.

el coeficiente de correlación indica la consistencia entre los puntajes obtenidos en ambas medidas, esto es justamente lo necesario para analizar la confiabilidad de las puntuaciones.

el coeficiente hallado será un valor entre 1 y 0. cuanto más cercano a cero sea ese valor. indicará más discrepancia (presencia de errores) entre las dos mediciones, es decir menos confiabilidad del instrumento (el error lo afecta en gran medida).



cuando en el coeficiente de correlación de pearson rxy se utiliza una sola variable como en el caso del cálculo de la confiabilidad, es natural cambiar sus índices xy, por xx, ya que no existen dos variables sino una variable x quedando entonces la notación rxx. dada la frecuencia de utilización del cálculo de la confiabilidad a partir del coeficiente de correlación de pearson, se utilizan ambos como sinónimos (correlación de pearson y coeficiente de confiabilidad), aunque en términos conceptuales no lo sean.


Coeficiente r de Pearson         Lectura de la correlación hallada        Lectura del coeficiente de                                                                                                                                  confiabilidad

+1.00                                         correlación positiva perfecta        Nunca se llega a este valor,                                                                                                                  ninguna técnica arroja puntajes                                                                                                                               perfectos.

+0.90                                         correlacion positiva muy fuerte                 Técnica muy confiable

+0.75                                         correlación positiva considerable                      Adecuada

+0.50                                         correlación positiva media              Regular (no cumple requisitos                                                                                                                             científicos)

+0.10                                         correlación positiva débil                            Baja confiabilidad

0.0                                            No existe correlación alguna        Medición contaminada de                                                           entre las variables.                         error. No confiable.

                                                          

métodos basados en medidas repetidas





consiste en usar el mismo instrumento en la muestra de sujetos en dos momentos, es decir, con un lapso de tiempo entre ambas administraciones. con estos métodos se estima el coeficiente de confiabilidad que permite medir la estabilidad de las puntuaciones obtenidas por la técnica de evaluación bajo estudio.



test-retest:

la fuente de falta de confiabilidad que identifica el método test-retest son las fluctuaciones temporales aleatorias, que influyen tanto en las condiciones de administración como en las condiciones de los examinados.

en este procedimiento empírico es fundamental la determinación de la extensión del intervalo de tiempo entre una ministración y otra, ambas realizadas en la misma muestra de sujetos.

cuanto mayor tiempo pase entre la primera administración y la segunda, el coeficiente de correlación será menor; y cuanto más breve sea el intervalo, la estabilidad temporal de los puntajes será de menor alcance.

etapas:


1-aplicar y evaluar la técnica a una muestra de sujetos

2-lapso de tiempo (justificado)

3-aplicar y evaluar la técnica a la misma muestra de sujetos

4-calcular la correlación r entre las puntuaciones obtenidas en ambas ocasiones

5-interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones)

en los estudios de confiabilidad se tiene como objetivo calcular, valorar, la estabilidad temporal de las puntuaciones de la técnica, su permeabilidad a cambios sutiles, y por lo tanto se espera que la intervención de factores fortuitos aleatorios (aprendizajes, olvidos, cambios emocionales esporádicos de los sujetos) entre la primera aplicación y la segunda, influyan los menos posible en las puntuaciones del instrumento , o sea que el instrumento capte características constantes, estables, de los sujetos.





formas paralelas alternativas (con intervalo):

la evaluación de la variable no conserva las mismas características cuando un test es administrado en una segunda oportunidad, ya que las respuestas a algunos ítems pueden verse afectadas por factores tales como la experiencia previa con los reactivos del instrumento, la falta de novedad, la memoria, la fatiga o la falta de motivación.

el procedimiento de las formas paralelas con intervalo de tiempo es una buena alternativa cuando no se puede aplicar el método test retest por el efecto que el aprendizaje y la memoria tendrían sobre los resultados en la segunda administración. se procede entonces a elaborar formas equivalentes y se les aplica a los mismos sujetos en dos oportunidades, con un intervalo de tiempo entre ambas administraciones. en este método es tan importante como en el de test-retest justificar el lapso de tiempo.

ambas versiones deben partir de un fundamento común, tener un contenido y un grado de dificultad similar, sin ser iguales.

también deben ser equivalentes tanto las medias y las varianzas de las puntuaciones que arrojan como los índices de dificultad y discriminación de los ítems.

en síntesis, este procedimiento controla dos fuentes de falta de confiabilidad: las fluctuaciones temporales aleatorias, al igual que es método anterior de test-retest, y además la inconsistencia de las respuestas a diferentes muestras de ítems.

etapas:


1-administrar una forma del test a una muestra de sujetos

2-lapso de tiempo (justificado)

3-administrar la forma paralela de la técnica a la misma muestra de sujetos

4-calcular la correlación r entre las puntuaciones obtenidas con una forma y con la otra

5-interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y muestreo de contenido)

 

métodos basados en una sola aplicación del test

son los más utilizados por los autores y adaptadores de las técnicas psicométricas.
división por mitades:

tiene como objetivos el escrutinio de los ítems que conforman la prueba y el análisis de las relaciones entre ellos. el procedimiento empírico aporta información para estimar el grado de consistencia interna del instrumento. es decir, este método controla, o identifica, la inconsistencia de la muestra de ítems, el muestreo de contenido.

existen diversas formas adecuadas para lograr dos mitades homogeneas: azar, pares e impares, por contenidos. a su vez, las mitades deben ser similares en cuanto a formato, número de ítems, y estadísticos (medias, varianzas, e índices de dificultad y discriminación), en síntesis, deben ser homogéneas.

etapas:


1-administrar el test a una muestra de sujetos

2-dividir el conjunto de ítems en dos mitades homogéneas

3-calcular la correlación r entre las puntuaciones obtenidas en las dos mitades en las que ha quedado dividida la técnica

4-ajustar la confiabilidad de la mitad de la prueba usando la fórmula de Spearman-Brown

5-interpretar el coeficiente hallado (consistencia de las respuestas a lo largo del test)







la fórmula de Spearman-Brown se utiliza para estimar la confiabilidad del instrumento cuando este se ha alargado o acortado en cualquier cantidad de ítems. kopitz, en el libro Test Gestáltico Visomotor para niños, descarta el método de la división por mitades, porque es imposible dividir en dos mitades homogéneas las 9 tarjetas que conforman esta prueba. por el contrario, en el estudio de las propiedades del wisc III, este procedimiento resulta adecuado, ya que los distintos subtests pueden ser divididos en dos mitades homogeneas. ¿por qué se estudiaron con este método sólo algunos subtests y no el wisc completo? el wisc III es un instrumento heterogeneo, mide diversos atributos y factores, por lo tanto sería imposible dividirlo en dos mitades homogeneas. Claves y Búsquedas de símbolos son pruebas de velocidad. luego la correlación entre la mitad de los ítems pares y la mitad de ítems impares va ser perfecta (+1) pero al mismo tiempo espuria, ya que no aportaría información sobre la confiabilidad de las puntuaciones. este procedimiento y otros similares a él, es inapropiado para valorar la confiabilidad de las pruebas de velocidad.





formas paralelas alternativas (sin intervalo):

se aplican ambas formas, en la misma sesión, a la misma muestra de sujetos, una después de la otra. controla específicamente si razones azarosas en la selección de los ítems de cada una de las formas han influido en la muestra de sujetos de tal manera que los mismos contesten mejor en una forma específica del test que en la otra, y esto obviamente no en función de variaciones verdaderas del constructo a evaluar, sino tan sólo debido a los ítems particulares que le tocaron en suerte, o sea por el azar, por la influencia de errores aleatorios. identifica la presencia de inconsistencias en las respuestas a diferentes muestras de ítems.



etapas:


1-aplicar las dos formas a una muestra de sujetos

2-calcular la correlación r entre las puntuaciones obtenidas por la misma muestra en una y otra forma



3-interpretar el coeficiente hallado (consistencia de las puntuaciones)

pueden ser afectadas por la fatiga y/o la falta de motivación por parte de los sujetos.





fórmulas kunder-richardson:

se trata de índices útiles para evaluar la homogeneidad del test. estas fórmulas que permiten calcular el grado de correlación entre todos los ítems de una escala. la kr20 es la estadística seleccionada cuando se desea determinar la consistencia entre items dicotómicos, sobre todo aquellos ítems que pueden ser calificados como correctos e incorrectos. la inconsistencia entre los ítems puede estar influida por el muestreo de contenido o por la heterogeneidad del atributo evaluado.

etapas:


1-aplicar y evaluar la técnica a una muestra de sujetos

2-calcular el coeficiente kr-20 entre los ítems



3-interpretar el coeficiente hallado (consistencia, homogeneidad)
coeficiente alfa de cronbach:

puede ser utilizado en reactivos no dicotómicos, o sea en ítems que incluyen un rango de alternativas posibles para que sujeto los responda. por ejemplo, las escalas likert. se trata de un método para identificar inconsistencia entre los ítems de una técnica.

etapas:

1-aplicar la técnica a una muestra de sujetos



2-calcular el coeficiente alfa entre las puntuaciones obtenidas en los distintos items

3-interpretar el coeficiente hallado





ej., Milion, para el inventario de estilos de personalidad en sujetos adultos, informa un resultado igual a 0,775 en la escala Innovación. en la actualidad, el coeficiente final debe ser acompañado por el rango de los coeficientes parciales. así, en el MIPS arrojó el valor mínimo igual a 0,69 y el valor máximo igual a 0,85, en la escala analizada.





confiabilidad entre evaluadores:

este método identifica las fluctuaciones en las puntuaciones según el evaluador.

etapas:


1-aplicar la técnica a una muestra de sujetos

2-evaluar las técnicas administradas (evaluador A)

3-evaluar las técnicas administradas (evaluador b)

4-calcular la correlación r entre los puntajes asignados por el evaluador A y por el evaluador B
5-interpretar el coeficiente hallado





cuando el elaborador o un adaptador de una técnica calcula un índice bajo de confiabilidad con este método, deberá revisar los criterios de puntuación e incluir otros que resulten más claros y que permitan por lo tanto tener un coeficiente mayor.

utilidad del coeficiente de confiabilidad: tener criterios de selección entre instrumentos. también, calcular el error de medición de las puntuaciones obtenidas a través de una técnica e interpretarlas adecuadamente.





error típico de medida. su utilidad





la confiabilidad es importante a la hora de interpretar puntuaciones individuales. se aborda el análisis de la puntuación específica de un sujeto concreto.

el error que se refiere al componente de la puntuación observada que está evaluando variables improcedentes, condiciones aleatorias y no permanentes del atributo cuestión.

la confiabilidad se puede definir como la proporción de la varianza verdadera y la total.





niveles de significación de intervalo de confianza



no es posible calcular el error de una determinada medición, ya que no se conoce el valor verdadero. sin embargo, calculando el desvío estándar de los errores se puede conocer la posibilidad de que el error se encuentre entre dos determinados -y calculables- valores. a estos dos valores -uno por encima del puntaje obtenido y otro por debajo del mismo- con su correspondiente probabilidad, se los conoce como intervalo de confianza.



al desvío estándar de terror se lo denomina como error estándar o error típico.



a medida que aumentamos la seguridad, la certeza, la confianza en la evaluación, aumenta también el rango del intervalo, la distancia entre los puntajes mínimo y máximo del intervalo.
utilidad del error típico de medida
el wisc 3 estima el rendimiento general de un niño o adolescente a través del Cociente Intelectual de la Escala Completa (CIEC) Verbal (CIV), de Ejecución (CIE) y 4 puntajes índice [comprensión verbal (CV), organización perceptual (OP), ausencia de distractibilidad (AD) y velocidad de procesamiento (VP).

un nivel de certeza del 99% es muy elevado, teniendo en cuenta el desarrollo actual de las técnicas psicométricas. por lo tanto, el wisc asume 2 niveles de significación de sus puntuaciones: una que implica un nivel de certeza del 90% y otra del 95%. es frecuente que un extremo del intervalo tenga una interpretación diagnóstica (CIV 105= Inteligencia Verbal promedio) y el otro una diferente (CIV 116= Intligencia Verbal media alta), al quedar incluido en la franja de puntaje de corte (CI=110) entre los diagnósticos "Promedio" y "Rendimiento alto".

este ejemplo permite valorar la importancia de no regirse por la lectura puntal del puntaje obtenido una técnica, ya que el margen de error puede confundir un diagnóstico. en este caso, como en otros, el análisis cualitativo de las respuestas del niño y su rendimiento en el resto de la prueba, junto con otros datos, tales como su historia de vida o su contexto, serán decisivos para q el profesional llegue al diagnóstico pertinente.





Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©psicolog.org 2019
enviar mensaje

    Página principal
Universidad nacional
Curriculum vitae
derechos humanos
ciencias sociales
salud mental
buenos aires
datos personales
Datos personales
psicoan lisis
distrito federal
Psicoan lisis
plata facultad
Proyecto educativo
psicol gicos
Corte interamericana
violencia familiar
psicol gicas
letras departamento
caracter sticas
consejo directivo
vitae datos
recursos humanos
general universitario
Programa nacional
diagn stico
educativo institucional
Datos generales
Escuela superior
trabajo social
Diagn stico
poblaciones vulnerables
datos generales
Pontificia universidad
nacional contra
Corte suprema
Universidad autonoma
salvador facultad
culum vitae
Caracter sticas
Amparo directo
Instituto superior
curriculum vitae
Reglamento interno
polit cnica
ciencias humanas
guayaquil facultad
desarrollo humano
desarrollo integral
redes sociales
personales nombre
aires facultad