CONCEPTOS FUNDAMENTALES PARA EL ANÁLISIS ESTADÍSTICO DE DATOS

Conceptos fundamentales de estadística aplicada ii . Conceptos Fundamentales Para el Análisis Estadístico de Datos . Dimas Sulbarán . [email protected] . Universidad Central de Venezuela . ... ser un obstáculo para la medición en ciencias sociales. Hoy en día, la medición no se concibe ...


Texto en PDF


i
2009
Escuela de PsicologíaDimas Sulbarán26/06/2009Prof. Dimas Sulbarán
CONCEPTOS FUNDAMENTALES
PARA EL ANÁLISIS
ESTADÍSTICO DE DATOS

Conceptos fundamentales de estadística aplicada
Conceptos Fundamentales Para el Análisis Estadístico de DatosDimas Sulbará[email protected] Central de VenezuelaEscuela de PsicologíaResumen Partiendo de las necesidades de un curso que intenta cubrir de manera razonadaaquellos conceptos y métodos que se consideran básicos e imprescindibles para su posterior aplicación en cualquier campo. Este trabajo no preende ser una guía exhaustiva que haga énfasis en teoremas y demostraciones. De manera intencionada se ha desarrollado una revisión y compilación delos aspectos fundamentalespara el dominio del discurso estadístico, que ha incluido sólo aquellos conceptos estadísticos que pueden ser de aplicación regularpara cualquier investigación fundada en datos numéricos. Donde una nutrida referencia bibliográfica puede orientar al lector interesado sobre libros más específicos. También de forma intencionada se han excluido todos aquellos conceptosque, aunque muy interesantes, desde un punto de vista aplicadopueden generar uninnecesaria confusión. El resultado es un documento de corta extensión, precisobásico, para el análisis de datos cuantitativos con el auxilio de herramientas informáticasPalabras claves: metodología, estadística aplicada, ciencias sociales.
Conceptos fundamentales de estadística aplicada iii
ÍndiceRESUMENINTRODUCCIÓNLA ESTADÍSTICAARA QUÉ SIRVE EL ANÁLISIS ESTADÍSTICOONCEPTOS BÁSICOS DE ESTADÍSTICAMEDICIONFIABILIDADALIDEZIVELES DE MEDICIÓNEL ANÁLISIS ESTADÍSTICO DE LOS DATOSL ANÁLISIS DESCRIPTIFrecuenciasDeterminación del intervalo de claseCuantilesTendencia centralVariabilidadForma de la distribucióntuaciones zSTADÍSTICA INFERENCIREFERENCIAS
Conceptos fundamentales de estadísticaaplicada
Introducción La estadística es una ciencia formal y por tanto con base matemática, que enmarca a un conjunto de procedimientos diseñados para la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es una herramienta que apoya a una amplia variedad de ciencias empíricasdesde la física hasta las ciencias sociales (medicinabiología, psicología, sociología, economía, etc.) y es usada fundamentalmente para la toma de decisiones en áreas de investigación académica y comercial, tanto en instituciones públicas como privadas.La intención de este trabajo es la de llevar información relevante y concisa al participante que se pregunta ¿Para qué sirve el análisis estadístico? En este sentido se ha hecho un esfuerzo por incorporaralgunos conceptos básicos de estadísticaque le permitirán dominar el lenguaje fundamental dentro del discurso de la materia. Así mismo, debido a la importancia que tiene en un curso de análisis de datos“cuantitativos” o numéricosse atendió al concepto de mediciónsus problemas fundamentales, la confiabilidady la validezy los niveles de mediciónLa tercera parte de este trabajo aborda de forma específica el análisis estadístico de los datos y por esta vía el análisis descriptivo e inferencial. Con relación al primero trata lo referente a las frecuencias, los cuantiles, estadísticos de tendencia central, variabilidad y forma de la distribución. Cerrando con los puntajes transformados z. Con respecto a la segunda, se han incorporado algunas de las pruebas más representativas como lo son las pruebas de contraste para dos grupos (independientes y relacionados), así como para más de dos grupos.No siendo el interésdel autor hacer una obra que equiparea manuales especializados en el área, siendo más bien nuestro propósito servir como unguía introductoria para aquellas personas que aun no ha formado altos niveles de experticia, el cualentre sus necesidades abriga una exposición sencilla de los conceptos relevantes para comprender el discurso estadístico. De forma responsable, el autor asume las limitaciones en este sentido y ha remitido al lector acucioso, interesadoen el áreaa una serie de prestigiosas referenciasque le permitirán ahondar de forma pertinente en los temas que aquí sólo se hatratado de introducir.
Conceptos fundamentales de estadísticaaplicada
La estadística La estadística es una ciencia formal y por tanto con base en modelos matemáticos que trata los problemas con relación a la recolección, almacenamiento, organización, análisis e interpretación de datosnuméricos, que funciona como una herramienta para conocer y explicar condiciones regulares en fenómenos de tipo aleatorio. Algunos autores han considerado que: “la estadística es la teoría y el método de analizar datos cuantitativos obtenidos de muestras de observaciones para estudiar y comparar fuentes de varianza de los fenómenos, para ayudar en la toma de decisiones, para aceptar o rechazar relaciones hipotetizadas entre los fenómenos, y para contribuir en la extracción de inferencias confiables a partir de observaciones empíricas” (Kerlinger y Lee, 2002 p. 232).La estadística se suele dividiren función de una serie de criterios, donde el alcance o los objetivos del análisis estadístico define las dos categorías más gruesas, a saberdescriptiva e inferencial.Una segunda categoría considera la naturaleza del análisis en función de la atención a las relaciones entre variables y el número de variables implicado. En este sentido, se puede clasificar a la estadística en univariada, bivariada y multivariada. Finalmente, el tipo de análisis estadístico con el cual se opere deberá atender a las características de la distribución de las variables implicadas y determina las tipologías: paramétrica y no paramétrica.Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases formales de la materia. Los métodos estadísticos son un instrumento en la investigación que sirven para describir los datos, estudiar relaciones, causación y generar argumentos para la confirmación o el rechazo de hipótesis (Glass y Stanley, 1984).Para qué sirve el análisis estadísticoComo se mencionara anteriormente, las ciencias pueden ser clasificadas en formales y empíricas. En las ciencias formales(lógica y matemática) no hay necesidad de entrar en contacto con el mundo real; basta con establecer un conjunto de postuladossobre entidades
Conceptos fundamentales de estadísticaaplicada
abstractas y proceder a partir de ellos por deducción lógica.En las ciencias empíricas, sin embargo, esas leyes capaces de explicar el comportamiento de la naturalezasólo pueden ser descubiertas y verificadas observando el mundo real.Mientras que las leyes de la deducción lógicapermiten llegar a conclusiones verdaderas a partir de premisas verdaderas,la generalización inductiva (propia de las ciencias empíricas) intenta ir desde lo que se considera que es verdad desde un conjunto reducido de observaciones hasta la afirmación de que eso mismo sucede en el conjunto total de observaciones de la misma clase. Bajo las circunstancias que definen la medición en ciencias sociales, las conclusiones a las que es posible llegarinductivamente requieren la utilización de una metodología en cierto sentido sensible a estasdebilidades. Es precisamente la estadística, mediante el conjuto de procedimientos o herramientas englobadas bajo la denominación de análisis estadístico, quien proporciona a las ciencias empíricas esa metodología.La aplicación más imporante del análisis estadístico está relacionada con su atención al concepto de incertidumbre, entendida esta como la tendencia de un resultado a variar cuando se efectúan observaciones repetidas del mismo fenómeno, bajo condiciones semejantes. En situaciones deterministas, donde los factores son causa ontológica de otra (por ejemplo, la relación peso y velocidad de la caída), el álgebra o análisis matemático bastan para definir el fenómeno en cuestión. Sin embargo, cuando las condiciones están signadas por la variabilidad de las respuestas al mismo fenómeno bajo las mismas condiciones, es necesario recurrir al análisis estadísticopara poder extraer conclusiones fiables y validas.Conceptos básicos de estadísticaLa comprensión de toda ciencia comienza obligatoriamente por unprocesode reconocimiento de los términos característicos del discursoque define el marco interpretativo en cuestión. Es por tanto, que en lo sucesivo se hará una exposición de algunos de los términos más representativos del lenguaje estadístico.Datos: son los hechos, medidas o números que han sido recopilados como resultados deobservaciones; se deben reunir, analizar y resumir para su presentación e interpretación. Puedenser cuantitativos (siempre numéricos) o cualitativos (que pueden ser numéricos o no, ya que sonetiquetas o nombres asignados a un atributo de cada elemento. Por ejemplo: el sexo de unapersona es masculino o femenino, pero podrían ser codificadas con 1 o 2 y en este caso, losnúmeros sólo servirían para indicar la categoría y no tendrían significación numérica).
Conceptos fundamentales de estadísticaaplicada
Población (N): es el conjunto de todas las observaciones o de los elementos de interés en determinado estudio que cumplen ciertas propiedades comunes. Este conjunto puede ser unnúmero finito de datos o una colección grande (virtualmente infinita) de datos.estreo:significa tomar una porción como representativa de una población o de un universoMuestra (n): es un subconjunto de la población, sin embargo, nos interesa que ese subconjuntoseleccionado de la población sea representativo, esto significa que debe contener lascaracterísticas relevantes de la población en la misma proporción en que están incluidas en dichapoblación. Las muestras pueden ser probabilísticas (aleatoria simple, estratificadas, porconglomerados, etc.) o no probabilísticas (por juicio, por cuota, etc.).Distribución muestral: se refiere a la función de probabilidad (de densidad de probabilidad) de un estadístico. Por tanto, una distribución muestralpuede definirse como una distribución teórica que asigna una probabilidad concreta acada uno de los valores que puede tomar un estadístico en todas las muestras del mismo tamañoque es posible extraer en una determinada población.Parámetro: es cualquier medida descriptiva de una población, por ejemplo, la mediapoblacional.Estadístico: es cualquier medida descriptiva de una muestra y se usa como base para estimar elparámetro correspondiente de la población. Por ejemplo, la media muestral.Variable: es un carácter o propiedad de la muestra o de la población que es susceptible de observada y medidaA nivel estadístico lasvariables se clasifican comoCualitativa: cuando la característica de estudio es no numérica; por ejemplo: la preferenciareligiosa, el sexo, el color del cabello, el estado civil, etc.Cuantitativa: es aquella que asume valores numéricos acompañados de una unidad de medida;por ejemplo: calificaciones de un examen.Continua: es aquella que puede tomar cualquier valor dentro de un intervalo, por lo general losvalores de una variable continua proceden de mediciones. Ejemplos: la estatura, la presión de aire en un caucho, etc.Discreta: es aquella que sólo puede tomar determinados valores en un intervalo, por lo generalson números enteros, y suelen ser el resultado de un conteo. Ejemplo: el número de hijos de unafamilia, el número de asistencias, etc.
Conceptos fundamentales de estadísticaaplicada
MediciónDe acuerdo con Kerlinger y Lee (2002), la medición es una de las piedras angulares de la investigación. Todos los procedimientos sobre los cuales versa el análisis estadístico se sostienen en la medición, de manera que las implicaciones son obvias. La definición clásica de medición se atribuye a Stevens(1968), quien afirmó que “en su sentido más amplio, la medición es la asignación de valores numéricos aobjetos o eventos, de acuerdo con ciertas reglas”. fin general de toda teoría de la medición,trátese de la ciencia que se trate, es estimarlos errores aleatorios de las mediciones,pues toda medición, en mayor o menorgradoconlleva un cierto error.En todos los casos, por un lado,hay que estimar la cuantía de los errores cometidosal medir, y, por otro, hay que garantizarque la medición no es trivial, que tieneentidad explicativa y predictiva. En otras palabras,hay que comprobar que las medicionesson fiables y válidas.En la actualidad, la medición de variables aparentemente poco cuantificablesha dejado de ser un obstáculo para la medición en ciencias sociales. Hoy en día, la medición no se concibe exactamente como la asignaciónde un numeral que exprese la magnitud de cierta propiedad. Medir en todo caso consiste en establecer con claridad las reglas de correspondenciapara dos sistemas de relaciones: uno empírico (el de las propiedades que se desea medir) y otro formal (el de los números que se asignan en la medición). Por consecuente, dependiendo de la riqueza de las relaciones que se logren establecerentre los diferentes valores de una variable, existirán diferentes niveles o escalas de medida. Sobre este punto ahondaremos en lo sucesivo.ConfiabilidadBajo la denominación genérica de confiabilidad se agrupan todo un conjunto de métodos y técnicas utilizadas por los psicólogos para estimar el grado de precisión con el que están midiendo sus variables. Este aspecto de la exactitud con que un instrumento mide lo que se pretende medir es lo e se denomina la confiabilidad de la medida. En este sentido, el término confiabilidad es equivalente a los de estabilidad y predictibilidad. Esta es la acepción que más comúnmente se le da a este término. Ahora bien, ¿cómo estiman los psicólogos el grado de error que hay en sus mediciones?Existen varias maneras para estimar la confiabilidad de una medida. Sin embargo, no es el objetivo de este trabajo ahondar en el estudio de este tema, para un estudio más detallado de este punto se sugiere la lectura deAnastasi (1976). En esta sección abordaré tres de las más
Conceptos fundamentales de estadísticaaplicada
conocidas: (a) confiabilidad de reaplicación de pruebas (testretest); (b) confiabilidad de versiones equivalentes (pruebas paralelas); y (c) confiabilidad de consistencia interna (homogeneidad).La confiabilidad, aun cuando no es la característica más importante de un instrumento de medición, requiere se le preste toda la atención que sea necesaria. Ciertamente, una alta confiabilidad, por si sola, no garantiza “buenos” resultados científicos. Pero, no puede haber “buenos” resultados científicos sin instrumentos confiables. En síntesis, la confiabilidad es una condición necesaria, pero no suficiente para obtener resultados de investigación que sean científicamente valiosos y socialmente útiles.lidezEn esta sección, nos interesa estudiar la exactitud con que pueden hacerse mediciones significativas y adecuadas con un instrumento, en el sentido de que mida realmente el rasgo que pretende medir. Esta propiedad o característica de un instrumento de medición recibe el nombre de validez. Es decir, en sentido general, la validez de un instrumento tiene que ver con las preguntas siguientes: ¿qué miden los puntajes del test? y ¿qué predicen dichas puntuaciones? Al igual que en el caso anterior, solo se hará una presentación del tema. Para un estudio exhaustivo del mismo (ver Guilford, 1954; Nunnally, 1967; Anastasi, 1976; Magnusson, 1982).Es este el problema de la Validez, concepto clave de la medición en las ciencias sociales. Que las mediciones sean fiables es una condición necesaria, pero no suficiente para que sean válidas. Se puede estar midiendo con gran precisión algo que no tiene ninguna capacidad explicativa o predictiva. No en vano los grandes debates acerca de la utilidad de los tests, las calas y otras mediciones psicológicas y educativas se centran generalmente en torno al problema de su validez. Dentro de este marco general hay tres procedimientos clásicos y muy utilizados para recabar información empírica probatoria de la validez, denominados Validez de Contenido, Validez Predictiva y Validez de Constructo (ver Kerlinger y Lee, 2002).Niveles de mediciónDesde la tradición fundada por Stevens (1968)se han distinguidocuatro escalas o niveles de medida: nominal, ordinal, de intervalo y de razón.Las cuales se exponen a continuación.La medida nominal, es considerada el nivel de medición más bajo y en las discusiones más conservadores se cuestiona que en realidad se trate de un nivel de medidaEsto obedece a
Conceptos fundamentales de estadísticaaplicada
que la medición nominal consiste exclusivamente en clasificar en categoríasa los sujetos u objetos que se desea medir, de modo que todos los sujetos u objetos clasificados dentro de la misma categoría sean equivalentescon relación a la propiedad, según la cual se les está clasificaLa medida ordinal consiste en asignar a los sujetos, objetos o eventos medidos un número que permita ordenarlos en relación a una determinada propiedadcon la cual los estamos asociando. Con esta clasificación nos adentramos en el campo de la medición propiamente cuantitativa y además de la clasificación de los elementos ganamos la capacidad de ordenarlos reconocer una mayor o menor presencia de la propiedad en cuestión.En la medida de intervalo, entramos en un tercer nivel de medición caracterizado por permitirnos establecer afirmaciones que trascienden la mera jerarquización y determinar de forma objetiva los cambios en nuestras escalas que se asocian con cambios idénticos en la propiedad medida entre un valor y el siguiente entodos los puntos de la distribución.Esta escala permite considerar un cero relativo, lo cual permite operar sobre operaciones aritméticas complejas.La medida de razón, se considera el nivel de medida más alto y esto obedece a que es capaz de cubrir todas las bondades de los niveles de medida inferiores incorporando a la escala la presencia de un cero absoluto o natural.La importancia de distinguir apropiadamente las diferentes escalas de medida radica fundamentalmente en que las técnicas estadísticas son sensibles a este tipo de definiciones.Por esta razón es de suma importancia conocer la problemática relacionada con las escalas de medida: el conocimiento de esta problemática puede contribuir adilucidar si con los números disponibles, tiene o no sentido efectuar determinado tipo de operaciones.El análisis estadístico de los datosEl análisis estadístico fue definido como el procedimiento por el cual se conseguía el almacenamiento, procesamiento e interpretación de los datos, con base a una serie de estrategias para la tabulación, resumen, análisis y contraste de los datos que fueron obtenidos de las observaciones a un conjunto de elementos. Este procedimiento, debe ser entendido siempre como un medio y no como un fín en sí mismo, por lo que el análisis que se haga siempre se entenderá y evaluará con referencia al marco del problema para el cual fuepropuesto con la intención de generar respuestas o disminuir los niveles de incertidumbre.Con respecto a esto se
Conceptos fundamentales de estadísticaaplicada
ha planteado una serie de criterios sobre los cuales debe versar cualquier estrategia de análisis, a saber: a) cuál es el objetivo de la investigación; b) cuál es el nivel de medición de las variables y c) cuál fue la estrategia de muestreo empleadaEn función de lo anterior, el investigador puede toparse con la necesidad de decidir según el alcance o los objetivos de su proyectono sólo llevar a efecto un análisis descriptivo, sino disponerse a realizar un análisis inferencial. Por la atención a las relaciones entre las variables estudiadas preparar no sólo análisis univariados, sino bivariados o incluso multivariados. En tanto que, según la naturaleza de las distribuciones de sus observaciones debe estimar si ha de trabajar con estadísticos paramétricos o no paramétricos.En este punto, abordaremos los análisisque nos permiten alcanzar el conocimiento a nivel descriptivo de nuestras variables y nos acercaremos a los abordajes bivariadoso de las relaciones entre dos variables.El análisis descriptivoLa estadística descriptiva, como lo sugiere su nombre es aquel conjunto de procedimientos que nos permitirán alcanzar la descripción de los datos. Consiste en una serie de tareas que orienta los métodos de tabulación, organización, representación y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. En este segmento se ubicana) de frecuencia y posición (cuantiles y percentiles); b) tendencia central (moda, mediana y media); c) de variabiklidad (rango, varianza y desviación típica), d) forma de la distribución (asimetría y curtosis); y e) transformaciones lineales (puntajes estandarizados).A nivel gráfico se ubican loshistogramalas barras, sectores o tortas, diagramas de caja, entre otrosDe este modo, la estadística descriptiva sirve de rramienta para describir, resumir o reducirlas propiedades de un conglomerado de datos para que sean más manejables y más comprensibles (Glasss y Stanley, 1984).recuenciasEl análisis de frecuencias en su acepción más simple, se puede definir como elestudio de la cantidad de veces que aparece cada o de losvalores de una variableen una observación dada.El análisis de frecuencias se puede aplicar a variables de cualquier nivel de medición y siempre será de gran utilidaden la exploración de los datos. Se puede clasificarsegún trecriterios, el primero es por las categorías de análisisel segundo por la escala empleada para la representación de las frecuenciasy el terceropor el carácter acumulativode los sujetosLas frecuencias se presentan como tablas de distribución de frecuencias.
Conceptos fundamentales de estadísticaaplicada
El análisis de frecuencias se puede establecer en las siguientes categorías de análisis: a) simple; b) agrupado y c) agrupado por clases. En el análisis de frecuencias simplelos os se presentan de forma ordenada ascendente o descendentecon frecuencia de 1 para cada valor de la variableEn el análisis agrupado simple, los datos son ordenados según su valor en forma ascendente o descendente, recogiendo en un solo número para cada caso la cantidad (n) de apariciones. Finalmente, en los análisis de frecuencias agrupadospor clases el investigador agrupa una determinada cantidad de valoresen una categoría y recoge en un solo número la cantidad (n) de aparicionesasociadas con dichos valores.De acuerdo con la escala empleadapara representar la cantidad de apariciones de los valores observados, se presentan dos opciones: a)absolutas y b) relativas. Las primeras nos muestran la cantidad de apariciones (n) en una escala bruta, por lo que puede mostrar valores para f dentro del rango de todos los enteros positivos, para cada uno de los valores observadosde xpor su parte, las frecuencias relativas trabajan con una escala transformada para las puntuacionesde f, que se clasifican a su vez en: a) porciones, con valores entre 0 y 1; b) para porcentajes donde los valores pueden encontrarse entre 0 y 100.Frecuencia relativa de clase simbolizan como “” y obtiene al dividir la frecuencia de claseentreel número total de observaciones(n), por lo que indica la proporción de la cantidad total dedatos que pertenecen a una clase, la cual al multiplicarse por 100 arroja el porcentajeformulason
fi
n
hi =
y
fi
n
% hi =
* 100

Finalmente, por el carácter acumulativo de los datos se consideran dos opciones posiblesa) frecuenciasde clase, la cual corresponde con el esquemaque se ha expuesto hasta ahora; b) frecuencias acumuladas de clase, implica el conocimiento de la cantidad de sujetos que han obtenido puntuaciones iguales o inferiores al mayor valor del intervalo declaseEstadefinición es válida para distribuciones acumuladas “menor que”, por tanto sólo funciona a partir de variables con nivel de medición ordinal.Las Distribución de frecuencias acumuladas “menor que”es una tabla donde se presentan lasfrecuencias acumuladas, para hallar esta distribución en una clase determinada lo que se hace essumar la frecuencia de esa clase a la de las clases anteriores. Las distribuciones de frecuenciasacumuladas nos permitever cuántas observaciones se encuentran por arriba o debajo de ciertosvalores.
Conceptos fundamentales de estadísticaaplicada
Determinación del intervalo de claseUna vez que el número de observaciones se ha vuelto poco parsimonioso el interés del investigador se suele volcar hacia el empleo de datos agrupadospor intervalos o clases. La elección del número de clases que se utilicen para el análisisdependeprimordialmente de la cantidad de datos que se tengan. Aunque en las ciencias durasse han planteado algunas formulas que intentan estandarizar el proceso de decisiónen la mayoría de los casos reduce auna decisión arbitrariaembargo, ciertas reglas deben aplicarse para que la decisión goce de validez y aceptación ante el resto de la comunidad académicatérminos generales, se recomienda que la distribución de frecuencias este conformada poral menos 5 clases y no más de 15 (si no existen suficientes clases, o si haydemasiadas, la información que se puede obtener precaria). Entre las expresiones quese pueden utilizar para calcular el número de clases tenemos:Log n/Log 2 donde “d” es el número de clases y “n” el número total deobservaciones.n donde “n” el número total de observaciones.1+3,322 Log n (regla de Sturges) y “n” el número total de observaciones.No obstante estas reglasque en algunos casos funcionan como una referencia,no deben tomarse como un factor determinante o definitivo.Un ejemplopermitirá ilustrar lo absurda que puede resultar una decisión fundada en formulasestandarizadassuponga que número de observaciones que tenemos es 100, es un buen criterio agrupar lasobservaciones en 100 = 10 intervalos, pero si el número de observaciones fuese muyalto como por ejemplo n = 1000000, este segundo criterio nos da un número excesivo deintervalo(1000)Un elemento que no captan las formulas a priori conocidas es el carácter situado y el significado del datocon el cual estamos trabajando. Por ejemplo, personapuedeencontrar la distribución de las notas de un curso que se define en un rango de 20 puntos desde 01 hasta . Ambos toman la decisión de trabajar con datos agrupados, uno de ellos consideraconveniente trabajar con cuatro intervalos de clase, para diferenciarcuatro niveles de desempeño en el curso. Por su parte, el otro analista decide quela distribución debe mostrar dos grupos: el de los aplazados y el de los aprobados. Ambas ofertas son igualmente validasen estos casos sólo se hizouso del sentido común paradeterminar el número de intervalos.De igual manera, siempre atendiendo a la perspicacia del investigadorpara captar las mejores decisiones según la situaciónaunque anteriormente se recomendó que todas las clasestuviesen el mismo tamaño, existen casos donde esta regla no puede o no debe aplicarse; porejemplo, si se tuviera a mano la lista de impuestos pagados por la población en un año,estas
Conceptos fundamentales de estadísticaaplicada
cantidades (supuestas) pueden encontrarse en un intervalo de Bs. 0 a Bs. 10000000,aún a pesar de que se eligiesen 20 clases para la distribución de frecuencia, con intervalosde igual longitud, cada clase tendría una cobertura de Bs. 500000. Lo anterior daría origena una situación en la que casi todas las observaciones caerían en laprimeraclasepero si ampliamos el númerode clases equivalentes atentaríamos contra la parsimonia de la distribución de intervaloscasoscomo este, es preferible trabajar con una distribución de intervalos no equivalentes a fin de seleccionar una escala más pequeña en el extremo inicial que lautilizada para el extremo superior. También sería posible reducir el número de clases quese requieren cuando unos cuantos de los valores son muchosmenores o mucho mayoresque el resto, mediante clases abiertas. Los anterios, son situaciones quese deben evitar cuando sea posible ya quereducen el nivel de medición de nuestras variables y complican la aplicación de ciertos cálculos análisis que puedan ser deinterés.Obtención de los intervalos de clase: el intervalo de clase es el recorrido de los valores se encuentran dentro de una clase, es recomendable al elaborar la tabla que todas lasclases tengan el mismo tamaño porque facilita la interpretación estadística de cualquierutilización posterior que se pueda hacer de los datos.El cálculo del intervalo de clase parte de una sencilla formula
Rgo. Total
a =
Donde es la amplitud del intervalo de claseRgo. Totalel rango totalde la distribución; y el número de intervalosque han determinadoDe este modo, obtenemos un valor que sirve de guía para establecer el tamaño de los intervalos, el valornumérico que obtengamos de la fórmula anterior lo podemos redondear dependiendo denuestra conveniencia, pero en cualquier caso, se toma con un grado de aproximación nomayor a aquel con el que se registran los datos.La definición de los intervalos de clase sigue unas reglas simples, las del proceso de egorización. En este sentido, el analista sólo tiene que responder a las siguientes condiciones: a) deben ser exhaustivas, lo cual implica que debe abarcar de manera eficienteel número suficiente de unidades de observacióny; b) mutuamente excluyentes, necesitan establecer límites claramente definidos para cada una de lasclases, de manera que se eviten problemas como:El solapamiento entre clases (no debe existir duda en la ubicación de los datos enlas clases) y que no se incluyan a todas las observaciones.El lector encontrará al revisar literatura al respecto que los autores difieren en la forma en que toman los límites cuando construyen lastablas de distribución de frecuencias (básicamente
Conceptos fundamentales de estadísticaaplicada
según el tipo de variable con la cualtrabaje). Unmodelo bastantepopulartoma los intervalos de tal manera que son cerrados en el límite inferior yabiertos en el superior, en forma de intervalos semiabiertos, a saber, si es una observación o dato de una muestra cualquiera, y los valores a y b son el límite inferior y superior, respectivamente, de una clase o categoríase dice que pertenece a dicha clase si y sólo si es igual o mayor que a y menor que b. esto se expresa en símbolos matemáticos de la siguiente manera: a,b)// a ≤ la notación anterior, el término [a,b) significa que se trata de un intervalo que comprende los valores iguales o mayores que a pero menores que b, con lo cual se denota a un intervalo semiabierto (cerrado por la izquierda y abierto por la derecha).De modo que, para la determinación de las frecuencias de clase, los intervalos se expresan como intervalos semiabiertos, en donde el límite inferior de cada clase corresponde a la parte cerrada del intervalo, y el límite superior corresponde a la parte abierta del mismo.Esta conformación de los intervalos nos garantiza la eficiencia de los intervalosde clase: a) en primer lugar, garantiza que ningún dato de la muestra pertenezca a más de un intervalo, así como que ningún dato quede fuera de alguno de los intervalosobtenidos.Ejemplo:Los datos 23, 24, 18, 14, 20, 13, 38, 19, 16, 24, 11, 16, 18, 20, 23, 19, 32, 36, 15, 10, 4son parte de un total de 80 datos que serán utilizados para construir una tabla dedistribución de frecuencias, suponemos que los cálculos para determinar el número declases y la amplitud ya fueron realizados dando como resultado que el número de claseses 6 y la amplitud es 5.La tabla resultante nos daría una presentación como la siguiente:
li - ls[10 – 15)[15 – 20)[20 – 25)[25 – 30)[30 – 35)[35 – 40)
Establecimiento de la marca de clase (xi): al trabajar con intervalos de clase se hace necesario un punto o valor representativo delintervalo. Si éste es acotado tomamos como marca de clase al punto medio del intervalo(se asume que los valores de la variable se distribuyen de manera uniforme dentro delintervalo). Se obtiene como un promedio aritmético entre los límites superior e inferior decada intervalo de clase.La formula se define como:
Conceptos fundamentales de estadísticaaplicada
Ls - Li
xi =
Donde, Xes igual al intervalo de clase; Les el límite superior del intervalo de clasees el límite inferior del intervalo.uantilesEl nombregenérico para un conjunto de estadísticos que cortan la distribución de frecuencias en un determinado número de partes igualeses el de cuantil y el mismo se define como el valor bajo el cual se encuentra undeterminada proporción de los valores de una distribución.Dentro de las medidas más representativas de los cuantiles tenemos:Deciles:Son aquellos valores que dividen en diez partes iguales a un conjunto de datos ordenados. Serepresentan por D1 , D2 , D3 , ....D9. De esta manera tenemos que:D1 (primer decil) es el valor por debajo del cual se encuentran como máximo el 10% de lasobservaciones, mientras que el 90% restante se sitúan por encima de él.D2 (segundo decil) es el valor por debajo del cual se encuentran como máximo el 20% de lasobservaciones, mientras que el 80% restante se sitúan por encima de él.Y así sucesivamente.Cuartiles:Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos ordenados. Serepresentan por Q1, Q2, y Q3. De esta manera tenemos que:Q1 (primer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 25% de lasobservaciones y por encima de éste el 75% restante.Q2 (segundo cuartil) es el valor por debajo de cual se sitúan a lo sumo el 50% de lasobservaciones y por encima de éste el 50% restante. Está justo en el centro y corresponde a lamedianaQ3 (tercer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 75% de lasobservaciones y por encima de éste el 25% restanteObservación: Hay algunas variaciones en las convenciones de cálculo de cuartiles ya que losvalores reales calculados pueden variar un poco dependiendo de la convención seguida. Sinembargo, el objetivo de todos los procedimientos de cálculo de cuartiles es dividir los datos enaproximadamente cuatro partes iguales.Percentiles:
Conceptos fundamentales de estadísticaaplicada
Son aquellos valores que dividen a un conjunto de datos ordenados en cien partes iguales. representan por P1, P2....,P99. De esta manera tenemos que:P1 es el valor pordebajo del cual se sitúan a lo sumo el 1% de los datos y por encima de tenemos el 99% restante.P2 es el valor por debajo del cual se sitúan a lo sumo el 2% de los datos y por encima de tenemos el 98%restante. Y así sucesivamente.En forma genérica el pésimo percentil es un valor tal que por lo menos un “ p” por ciento de loselementos tiene dicho valor o menos y, al menos, un (100p) por ciento de los elementos tiene esevalor o más.Tendencia centralLas medidas de tendencia central comprenden una serie de estadísticos cuyo propósito es el de resumir la información conrespecto al comportamiento de los datos de una distribución enun solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización.Las formas más representativas de este tipo de análisis incluyen el uso de la moda, la mediana y la media. La moda se conoce comola puntuación con mayor frecuencia en una distribución. La mediana es técnicamente el valor asociado con el percentil 50, lo cual refiere a que corta la distribución por la mitad.La media se define como elcociente que resulta de la sumatoria de todos los valores observados de x dividido entre el número total de observaciones.Elección de una medida de tendencia centralEl cálculo de cualquier estadístico es algo que en este punto debería de preocuparnos poco. No así la responsabilidadcon la decisión asociada a la elección del estadístico más conveniente para nuestros análisis. Si bien las máquinas pueden realizar eficientemente los cálculos, aun no pueden llevar a efecto las reflexiones pertinentes que hasta tanto definen el trabajo del analista.A continuación, se exponen algunas consideraciones que deben tenerspresentes a la hora de elegir con qué estadístico de tendencia central debemos operar.En grupos muy pequeños es mejor evitar los estadísticos de resumen, en todos los casos los resultados suelen ser muy inestableA diferencia de la media, la mediana no se ve afectada de manera importante por las presencia de valores atípicos en nuestra distribuciónAlgunos grupos de puntuacionescarecen de una tendencia central representativa. Esto es particularmente valido para grupos multimodales.
Conceptos fundamentales de estadísticaaplicada
Variabilidad na vez que se han estudiado las propiedades de la distribución en términos de sus tendencias centrales, el investigador siempre necesitará responder a una serie de preguntas que atiendan a la cuestión ¿cuán diferentes son los datos observados con relación a estos valores de tendencia central?La variabilidadtrata de una serie de estadísticos que intentan dar respuesta a la inquietud con respecto a n alejados están un conjunto de valores entre sí. Entre los estadísticos de variabilidad más utilizados se cuentan: a) el rango; b)la varianza y c) la desviación típica. La medida más simple de dispersión es el rango o amplitud, la cual nos informa sobre la diferencia entre el valor menory el mayorde un conjunto de valores. Esta medida presenta el problemade que puede verse afectada por la presencia de valores extremos, poco representativos. Por esta razón, se incluyeron variantes del rango que incluyen los análisis D, el rango intercuartílico y semiintercuartílico.Para los análisis D el investigador excluye las puntuaciones extremaspor denajo del percentil 10 y por encima del percentil 90. El rango intercuartílico por su parteconsidera los valores entre el primer y el tercer cuartil. En tanto que el rango semiuntercuartílico calcula el promedio del ngo intercuartílico entre dos.La varianza es el promedio de las diferencias de los valores individuales de x con relación a la mediaelevados al cuadrado y se simboliza s. Es uno de los estadísticos de mayor importancia por su presencia en la mayoría de las pruebas de contraste más potentes. Así como fundamento para muchos de los análisis más complejos. Sin embargo, cuando se trata de análisis descriptivos no es conveniente trabajarcon este estadístico, pues se encuentra expreso en una escala diferente ala de las puntuaciones observadas lo que dificulta en gran forma su interpretaciónLa desviación típica es la raíz cuadrada de la varianza y en este sentido refiere al promedio de las diferencias de las puntuacionesobservadas con relación a la media del grupo, que se encuentra expresada en la misma escala que las puntuaciones originales. Lo cual facilita de manera importante su interpretación.Forma de la distribuciónLas medidas de forma de la distribución nos permiten identificar el tipo de distribución de la cual estamos extrayendo nuestras inferenciasUna vez se han respondido a preguntas con relación a la magnitud promedio del fenómeno en cuestión y cómo se dispersan los puntajes en
Conceptos fundamentales de estadísticaaplicada
torno a estos promedios, algunas preguntas aflorarán como aquellas que desean conocer cuánta es la diferencia relativa entre la media y la mediana, cuando obviamente estas no son idénticasMientras que otras preguntas intentan definir cuán dispersos se encuentran los datos con relación al promedio observadoSus principales índicesson la Asimetría y la Curtosis.La asimetría es el estadístico que nos indica medida en quelos datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes positiva, simétrica y negativa), cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los sujetos se encuentran por debajodel valor de la media aritmética, la curva es Simétrica cuando se distribuyen la misma cantidad de sujetos y valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de sujetosse aglomeran en los valores mayoresla media.Con la curtosis sedetermina el grado de concentración que presentan los valores en torno la región central o promedio de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).Cuando la distribución de los datos cuenta con un coeficiente de asimetría muy cercano a y un coeficiente de Curtosis con corrección de aproximadamente 0, se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística inferenciase requiere que los datos se distribuyan normalmente, para emplear pruebas paramétricasPuntuaciones zLas puntuaciones z son las formas más populares de transformación de los valores o puntuaciones observadas, con el propósito de analizar su distancia respecto a la media, en unidades de desviación estándar. En este sentido, una puntuación estándar o z nos indica la dirección y la magnitud enque un valor individual se aleja de la media, en una escala de desviaciones estándar.Por la naturaleza de los datos, las transformaciones z sólo pueden ser llevadas a efecto en los casos de variables con un nivel de intervalo.Estandarizar los valores permite comparar puntuaciones de dos o más distribuciones diferentes. La distribución que resulta de la transformación z no altera la forma original de la
Conceptos fundamentales de estadísticaaplicada
distribución, pero sí modifica las unidades originales. La distribución transformada a puntuaciones z se establece con media 0 y desviación típica 1.Las puntuaciones z también sirven para comparar mediciones de distintas pruebas o escalas aplicadas a los mismos sujetos. Las puntuaciones z también sirven para analizar las distancias entre puntuaciones de una misma distribucióny áreas de la curva que abarcan tales distancias, o para sopesar el desempeño de un grupo de sujetos en varias pruebas.Estadística inferencialLa estadística inferencial o inductivaengloba una serie de estrategias que permiten la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestióndesde las propiedades de ese conjunto de datos empíricos (muestra)hasta el conjunto total de datos (población) teniendo en cuenta la aleatoriedad de las observaciones. En este sentido, el análisis estadístico inferencial se encuentra altamente asociado a los conceptos de muestreo y de probabilidad. n la investigación, estas inferencias pueden tomar la forma de argumentos que permiten confirmar o rechazar las hipótesis de trabajo (prueba de hipótesis)Referencias Glass, G. y Stanley, J. (1984). Métodos estadísticos aplicados a las ciencias sociales.Bogotá: Prentice Hall Interamericana.Hernández, R., Fernández, C. y Baptista, P. (2006). Metodología de laInvestigación (4ª ed.)México, DF: McGrawHill.Kerlinger, F. y Lee, H. (2002). Investigación del comportamiento: Métodos de investigación en ciencias sociales(4ª ed.). México: McGraw Hill Interamericana.Landero, R., Gómez, M. (2006). Estadística con SPSS y Metodología de la Investigación.México: Trillas.Muñiz, J. (1998). La medición de lo psicológico [versión electrónica] Psicothema, 10(1), 121.
Conceptos fundamentales de estadísticaaplicada
Siegel, S. (1990). Estadística no paramétrica(3ra ed.). México, DF: Trillas.Stevens, S. (1968). Measurement, statistics, and the schemapiric view. cience, 161,849 856.

Documentos PDF asociados:

CONCEPTOS FUNDAMENTALES PARA EL ANÁLISIS ESTADÍSTICO DE DATOS
Análisis Estadístico de Datos de Contaminación Ambiental ...
Fundamentos de bioestadística y análisis de datos para ...
Software para análisis de datos cualitativo, gestión y ...
ANALISIS ESTADISTICO CON EL SPSS - estadisticacondago.com
Análisis de los fundamentos del razonamiento estadístico ...
CONCEPTOS FUNDAMENTALES DE CROMATOGRAFÍA
CONCEPTOS FUNDAMENTALES DE ÁLGEBRA
Historia y conceptos fundamentales de la Metafísica
ALGUNOS CONCEPTOS FUNDAMENTALES DE LA ADMINISTRACION ...
Los cuatro conceptos fundamentales del psicoanálisis
CONCEPTOS FUNDAMENTALES EN LA PROMOCIÓN DE LA SALUD
Capítulo I CONCEPTOS, PRINCIPIOS Y TÉCNICAS FUNDAMENTALES
Conceptos fundamentales de la Historia del Arte Humanidades
CONCEPTOS FUNDAMENTALES GERENCIA: LIDERAZGO: PROCESO DE ...
CONCEPTOS FUNDAMENTALES DE LA CABALA AMPLIANDO TU VISION ...
CONCEPTOS BÁSICOS FUNDAMENTALES sobre DONACIÓN DE ÓRGANOS ...
CAPITULO 5 ANÁLISIS E INTERPRETACIÓN DE LOS DATOS
CAPITULO 5 ANALISIS DE LOS DATOS OBTENIDOS
Análisis de Datos con MS Excel - cibertec.edu.pe
capítulo 10 cuantitativos Análisis de datos
ANÁLISIS DE LOS DATOS E INTERPRETACIÓN DE LOS RESULTADOS.
Formulario Y Tablas De Introduccion Al Analisis De Datos En
CONTENIDO 1 ESTADÍSTICA 1 Análisis de datos con SPSS
Analisis de datos en ciencias sociales y de la salud III
Procesamiento de datos y análisis estadísticos utilizando
ANALISIS DE LOS CONCEPTOS DE ADMINISTRACIÓN, GESTIÓN Y ...
INMUNOLOGIA. Conceptos fundamentales de inmunología ...
MATEMATICAS FUNDAMENTALES PARA INGENIEROS
MATEMATICAS FUNDAMENTALES PARA ... - bdigital.unal.edu.co
Datos de animalitos para hoy 16 10 2017
Anonimización de datos para la investigación biomédica
DATOS PARA LA VIDA Las calcificaciones en el seno
DATOS PARA LA VIDA Ganglios linfáticos axilares
Hechizos para Proteccion en Base de Datos= 95 Total de ...
datos para la vida Enfermedades benignas del seno
DATOS PARA LA VIDA Condiciones benignas del seno
Datos para hoy tarde animalitos ruleta - p9ff.emmereyrose.com
Conceptos para la selección y uso de mascarillas y ...
Alergia e hipersensibilidad: conceptos básicos para el ...