martes, 5 de febrero de 2013

Estadística Descriptiva (Resumen)



INTRODUCCION, NOTACION SUMATORIA.
Los números cuya suma se indica en una notación sigma pueden ser naturales, complejos u objetos matemáticos más complicados. Si la suma tiene un número infinito de términos, se conoce como serie infinita.
Dada una sucesión:
Ésta se puede representar como la suma de los  primeros términos con la notación de sumatoria o notación sigma. El nombre de esta notación se denomina de la letra griega (sigma mayúscula, que corresponde a nuestra S de "suma”). La notación sigma es de la siguiente manera: 
La ecuación anterior se lee la "suma de  desde  hasta." La tetra k es el índice de la suma o variable de la sumatoria y se reemplaza k en la ecuación después de sigma, por los enteros, y se suman las expresiones que resulten, con lo que resulte del lado derecho de la ecuación.
DATOS NO AGRUPADOS
1.- Su fin es resumir la información.
2.- Generalmente, los elementos son de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias.
3.- Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos esta pidiendo) .
Una vez que ya hemos ordenado y clasificado, presentaremos la información obtenida mediante una”tabla de frecuencias”

DATOS AGRUPADOS

Los datos agrupados significan que hay menos datos con los cuales trabajar y mis estadísticas serán aproximadas.
Los datos agrupados se refieren al hecho de que estén ordenados, clasificados y contados
Distribución o tabla de frecuencias
Para agrupar u organizar un conjunto de datos se construye una tabla llamada tabla de frecuencias o distribución de frecuencias simple.
El primer paso para organizar los datos consiste en identificar el tipo de datos que se tienen, los cuales pueden ser cualitativos o cuantitativos.
Cuando los datos corresponden a valores cualitativos se clasifican en varias clases o categorías, que corresponden a las cualidades, valores o atributos obtenidos de cada elemento, después se efectúa una tabulación, es decir, se realiza un conteo de los elementos, que pertenece a cada clase o categoría. Para llevar un orden y no omitir algún valor, se asigna una columna para la tabulación y se coloca una marca para cada elemento de la muestra o población, donde corresponda su categoría.

MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización.
Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. En este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.
Entre las medidas de tendencia central tenemos:
Media aritmética.
Se le llama también promedio o, simplemente, media. Es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.
Dado un conjunto numérico de datos, x1, x2,..., xn, se define su media aritmética como:
1     
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.
Las principales propiedades de la media aritmética son:
Su cálculo es muy sencillo y en él intervienen todos los datos.
• Su valor es único para una serie de datos dada.
• Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.

Media ponderada.
Es apropiada cuando en un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos. Se obtiene del cociente entre la suma de los productos de cada dato por su peso o ponderación y la suma de los pesos.

Para una serie de datos no vacía
 
A la que corresponden los pesos
 
La media ponderada se calcula como:
 

Media geométrica.
La media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices.
Propiedades:
• El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable.
• La media geométrica de un conjunto de números positivos es siempre menor o igual que la media aritmética:
 

Media armónica.
Denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades.
Así, dados n números x1, x2,..., xn la media armónica será igual a:
 
La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.

Propiedades:.
• La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable.
• Siempre se puede pasar de una media armónica a una media aritmética transformando adecuadamente los datos.
• La media armónica siempre es menor o igual que la media aritmética, ya que para cualesquiera números reales positivos :
 

Mediana.
Representa el valor de la variable de posición central en un conjunto de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Su cálculo no se ve afectado por valores extremos.
Es el valor medio en un conjunto de valores ordenados. Si existen 2 valores medios, estos se suman y se dividen entre dos.

Moda.
Es el valor con una mayor frecuencia en una distribución de datos.
Hablaremos de una distribución bimodal de los datos adquiridos en una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda.
Sus principales propiedades son:
• Cálculo sencillo.
• Interpretación muy clara.
• Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".

Entre las medidas de posición tenemos:
Percentiles.
Los Percentiles son los 99 valores que dividen en 100 partes iguales a  una serie de puntuaciones ordenadas, de forma que el percentil Pm deja por debajo de sí el m por ciento de las puntuaciones del grupo. A cada una de estas cien partes en las que se dividen las puntuaciones también las podemos llamar centil (cm.).
¿CÓMO LOS CALCULAMOS?
Si los datos aparecen  agrupados por intervalos, bastará  ordenarlos y determinar cuántas puntuaciones representan el m por ciento  de  la distribución. Una  vez determinada  esta  cantidad, localizaremos en la serie  ordenada cuál es la  puntuación  que deja por debajo de sí a ese número de puntuaciones.
En el caso  en que  los datos aparecen  agrupados por intervalos, emplearemos la  siguiente  expresión, que  nos permitirá  calcular  un percentil cualquiera:
L1: es el límite inferior del intervalo  crítico (intervalo  donde  estará contenido el percentil).
I: es la amplitud de los intervalos.
fa: es la frecuencia acumulada del intervalo anterior al intervalo crítico.
n: es el número de casos.
fi: es la frecuencia absoluta del intervalo crítico.
La  expresión m ∙ n/100  representa  el número  de  puntuaciones que quedarían por debajo  del percentil  m en la  distribución estudiada. El intervalo  crítico es precisamente  aquel  donde  la frecuencia acumulada alcanza o supera ese número de puntuaciones.

Deciles.
Si dividimos una serie de puntuaciones en diez partes, cada una de las puntuaciones que limitan las partes se denomina decil (Dm). La escala de deciles va desde el D1 al D9. Definiremos un decil (Dm) como aquel valor numérico que deja por debajo de sí m décimas partes del total de puntuaciones.
¿Cómo los calculamos?
Para calcularlos seguimos la siguiente expresión:
Donde:
 
Li: es el límite inferior del intervalo crítico (que contiene a Dm)
I: es la amplitud de los intervalos.
fi: es la frecuencia absoluta del intervalo crítico.
n: es el número de casos.
fa: es la frecuencia acumulada en el intervalo anterior al intervalo
Crítico.

Cuartiles.
Los cuarteles son los 3 valores que dividen en cuatro partes a una serie de puntuaciones ordenadas, de manera que el cuartel Qm deja por debajo de sí m cuartas partes del total de puntuaciones del grupo.
¿Cómo los calculamos?
La siguiente expresión nos permitirá calcular dichos cuarteles:
 

MEDIDAS DE DISPERCION

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).

Varianza
La varianza es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, es el cuadrado de las desviaciones:
             
Propiedades
La varianza es siempre positiva o 0:
Si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica.
 
Si a los dato de la distribución los multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.
Propiedad distributiva: cov

Desviación típica
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.


Desviación típica muestra
 
Desviación típica poblacional
 

Covarianza
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. La formulación clásica, se simboliza por la letra griega sigma (σ) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "

La formula suele aparecer expresada como:
Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas).
La expresión se resuelve promediando el producto de las puntuaciones diferenciales por su tamaño muestra (n pares de puntuaciones, n-1 en su forma intestada).
Este estadístico, refleja la relación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de +infinito a -infinito. Al no tener unos límites establecidos no puede determinarse el grado de relación lineal que existe entre las dos variables, solo es posible ver la tendencia.
 

Coeficiente de Correlación de Pesaron
El coeficiente de correlación de Pesaron, r, permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raíz cuadrada de las varianzas).
  
 Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:
 

MEDIDAS DE FORMA
Es una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.
La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán puntiaguda es una distribución.

TABLA DE FRECUENCIA

Cuando se han recogido los datos correspondientes a una variable estadística, hay que tabularlos; es decir, hay que confeccionar con ellos una tabla en la que aparezcan ordenadamente:
  • Los valores de la variable que se está estudiando.
  • El número de individuos de cada valor; es decir, su frecuencia.
La frecuencia absoluta es el número de veces que se presenta un valor al estudiar una variable.
Para hacer el recuento, se leen los datos uno a uno y se marca una señal en el correspondiente valor. Si las señales se agrupan, de cinco en cinco por ejemplo, es más fácil contarlas.
EJEMPLO: Variable - ¿Cuántas personas viven en tu casa? 
 
La tabla de frecuencia adopta, finalmente, el siguiente aspecto:
VALORES
FRECUENCIA
2
2
3
4
4
8
5
12
6
3
7
1

30



  
BIBLIOGRAFIA

No hay comentarios:

Publicar un comentario