ESTADISTICA

2.1 Distribución de frecuencias.
Es una tabla que organiza los datos en clases; es decir, en grupos de valores que describen una característica de los datos.
Una distribución de frecuencia muestra el número de observaciones provenientes del conjunto de datos que caen dentro de cada una de las clases

2.1.1 Frecuencia absoluta.
De la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase.
Frecuencia absoluta acumulada
Se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad.
Frecuencia relativa
De la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones.
Frecuencia relativa acumulada
Se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual.

2.1.2 Contruccion de tablas de frecuencias
Para datos agrupados. En la mayoría de los casos se requiere agrupar los datos para una
mejor visualización. Para ello se usa una distribución de frecuencias
Las medidas de tendencia central reflejan la “concentración” de los
datos. Las medidas de dispersión reflejan la variabilidad.
Primer paso: Se hace un arreglo de datos, esto es ponemos en
orden de magnitud ascendente o descendente.
Segundo paso: Se calcula el rango de los datos. El rango es la
la distancia máxima entre el valor grande y el chico.
Tercer paso: Se calcula el número de intervalos de las clase necesarias.
Otra forma de determinar el número de intervalos es obteniendo la raíz
cuadrada del número de observaciones.
En este caso se eligen 4 clases
K = n = 20 = 4.47 ≈ 4

Otra forma es seleccionar el entero más pequeño K para el cual se cumple
2K ≥ n
Cuarto: paso es determinar el ancho del intervalo.
Quinto :paso es determinar las clases en si. Es decir los
límites superior e inferior de cada intervalo.
Sexto paso: Se Calculan las frecuencias de cada clase o intervalo. Esta
columna suele ser igual al número de observaciones en cada clase.
La frecuencia absoluta cumulada va sumando las frecuencias de cada clase,
hasta sumar total de observaciones.
EL porcentaje relativo se obtiene dividiendo las frecuencias entre el total
El porcentaje acumulado se obtiene dividiendo las frecuencias acumuladas entre el
total. Alternativamente, se pueden sumar los porcentajes relativos.
2.2 Representación grafica
Para las distribuciones de frecuencias la representación gráfica más común es el histograma.
También es posible realizar gráficas de barras horizontales, los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases.
Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que.
Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.
Medidas de Tendencia central

Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.
Las medidas de tendencia central comúnmente empleadas son :
Media aritmética
Mediana
Moda
Media geométrica
Media armónica
Los cuantilos

Media Aritmética

La media aritmética es el promedio más comúnmente usado, este puede ser simple o ponderado.

Media Aritmética Ponderada
Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es valido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.

Media Geométrica
La media geométrica es la raíz enésima del producto de todos los valores de la serie.
Media Armónica
La media armónica se define como el recíproco de la media aritmética de los recíprocos de los valores.
y reacomodando la fórmula se tiene:

Mediana

La mediana toma en cuenta la posición de los datos y se define como el valor central de una serie de datos o, más específicamente, como un valor tal que no más de la mitad de las observaciones son menores que el y no más de la mitad mayores

Moda

La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.
Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o que tenga varias modas.
DATOS NO AGRUPADOS

Son datos no agrupados cuando se consideran y analizan todos los valores observados tal como se
obtuvieron. Es conveniente y mas sencillo trabajar a estos datos como no agrupados cuando la muestra no es muy grande. De preferencia que sea una cantidad menor de 30 datos.

DATOS AGRUPADOS
Son datos que están organizados (formando grupos). Podemos formar más o menos grupos,
dependiendo de que tan exacto queramos trabajar, a cada grupo le llamamos clase. Rara vez se emplean menos de seis clases o màs de quince.

MEDIDAS DE VARIABILIDAD:

Rango:
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribución,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular.

Varianza:
Es la media de los cuadrados de las desviaciones, y la denotaremos por o también por
Aunque también es posible calcularlo como:

Desviación: Es la diferencia que se observa entre el valor de la variable y la media aritmética. La denotaremos por di .
Desviación media.

Cuasivarianza:

Es una medida de dispersión, cuya única diferencia con la varianza es que dividimos por N-1, la representaremos por :

Desviación típica:
Es la raíz cuadrada de la varianza, se denota por Sx .

Desviación estándar

La desviación estándar es simplemente la raíz cuadrada positiva de la varianza.
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.
Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones:
1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.
Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.
Tipos de gráficos
Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.
En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcándose de manera continua las fronteras entre cada uno de los éstos. De esta manera, el histograma está compuesto rectángulos, cuyo número coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la frecuencia de cada intervalo.
Es importante observar que resulta difícil utilizar este tipo de representación cuando existen intervalos abiertos o cuando los intervalos no son iguales entre sí.
Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues al cambiarla la presentación visual de un histograma puede variar. Un applet que muestra cómo el número de clases y su ancho pueden hacer variar fue desarrollado por Webster West de la Universidad del Sur de Carolina.
El programa Excel no permite crear de manera automática histogramas, pues proporciona el ancho de las columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas.
Un tipo de gráfico muy parecido al histograma es la gráfica de columnas. Para este tipo de gráfica, elaboradas con rectángulos también, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. Para este tipo, a diferencia del histograma, no es necesario tener una escala horizontal continua, por lo que los rectángulos (o barras) no tienen que aparecer juntas entre sí.
Otra observación pertinente es que se pueden representar en la misma gráfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una gráfica con varias series, correspondiendo cada una de ellas a cada observación de la muestra (o población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero distinta de las demás.
El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de preparatoria. Las series (cada una de las calificaciones parciales) están coloreadas con diferente color para mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los demás. Es interesante observar que la escala horizontal no es continua (es nominal).
Existe la posibilidad, y si los recursos lo permiten, de representar gráficos compuestos de una manera "tridimensional", es decir, con gráficos que posean no sólo dos ejes, sino tres; y en los que los rectángulos son sustituídos por prismas de base rectangular (ocasionalmente el software en el mercado permite utilizar prismas cuya base son polígonos regulares de más de cuatro lados, pirámides o cilindros).
También es posible realizar gráficas de barras horizontales, los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases.
Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida en estratos como, por ejemplo, son sus edades.
A este tipo de gráficos en particular se le llama pirámide de edades por su forma. Incluso, cuando se compara la población masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en particular).
Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.
Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas menor que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por ésto la aplicación de la técnica es parcial):
1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho.
2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.
De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar esa "rebanada" de la gráfica y separarla de las demás.
Representación Gráfica para Variables
Cuantitativas
Para datos agrupados
En la mayoría de los casos se requiere agrupar los datos para una
mejor visualización. Para ello se usa una distribución de frecuencias
Las medidas de tendencia central reflejan la “concentración” de los
datos. Las medidas de dispersión reflejan la variabilidad.
La distribución de frecuencias permite resumir la información en
una tabla o en gráfico que permite visualizar la “centralidad” y la
“dispersión” de los datos

Primer paso: se hace un arreglo de datos, esto es ponemos en
d d i d d d orden de magnitud ascendente o descendente
Número de eventos de violencia doméstica
reportados en un municipio
10 14 21 22 17
15 14 18 33 23
20 15 19 16 28
4
22 27 18 18 13
Segundo paso: Se calcula el rango de los datos. El rango es la
di i á i l l d l distancia máxima entre el valor grande y el chico.

ESTADISTICA

UNIDAD II

TERMINOS BASICOS DE ESTADISTICA

Blog Archive

Categories