domingo, 3 de junio de 2012

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de  finito o infinito numerable. A dicha función se le llama función de masa de probabilidad

Las distribuciones de una variable discreta mas importantes son:

DISTRIBUCIÓN BINOMIAL

Es una distribución discreta de probabilidad conocida por sus variadas aplicaciones que se relaciona con un experimento de etapas multiples:

Un experimento binomial tiene 4 propiedades:

  1. El experimento consiste en una sucesión de n intentos idénticos.
  2. En cada intento son posibles 2 resultados. Éxito o Fracaso. 
  3. La probabilidad de éxito, representado por p, no cambia de un intento a otro. En consecuencia, la probabilidad de fracaso, (1-p), no cambia de un intento a otro. Supuesto de estacionariedad.
  4. Los intentos son independientes.
Un ejemplo de distribución Binomial  es determinar la probabilidad de que en n intentos al lanzar una moneda salga cara (éxito) y no sello (fracaso).

Cantidad de resultados experimentales con exactamente x éxitos en n intentos:

n =       n!    
     x    x!(n-x)!


También es necesario conocer la probabilidad asociada a cada uno de los resultados experimentales el cual se puede determinar a través de la siguiente relación

P^x (1 - P) ^ (n-x)

Combinando las dos expresiones obtenemos la función de distribución binomial:

F(x)= n =  P^x (1 - P) (n-x)
                                                                     x

F(x)= probabilidad de x exitos en n intentos

n =       n!    
     x    x!(n-x)!

P = probabilidad de un exito en cualquier intento
(1 - P)= probabilidad de un fracaso en cualquier intento.

Triangulo de pascal


El triángulo de Pascal es un triángulo de números enteros, infinito y simétrico. Se construye de la siguiente manera: Se empieza por el « 1 » de la cumbre. De una línea a la siguiente se conviene escribir los números con un desfase de media casilla. Así, las casillas (que no se dibujan) tendrán cada una dos casillas justo encima, en la línea anterior. El valor que se escribe en una casilla es la suma de los valores de las dos casillas encima de ella. El valor cero no se escribe.

Archivo:Triángulo de Pascal.png

Binomio de Newton

La fórmula del binomio de Newton sirve para calcular las potencias de un binomio utilizando números combinatorios. Mediante esta fórmula podemos expresar la potencia (a + b)n como una suma de varios términos, cuyos coeficientes se pueden hallar utilizando el triángulo de Pascal.

...

DISTRIBUCIÓN GEOMÉTRICA

En una serie de intentos independientes, con una probabilidad constante p de éxito, sea la variable X el número de ensayos realizados hasta la obtención del primer éxito. Se dice que X tiene una distribución geométrica con parámetro p cuando:

F(x) = (X;P) =(1-P)^x-1P

X= Cantidad de intentos


DISTRIBUCIÓN BINOMIAL NEGATIVA

Una variable binomial negativa es un conteo del número de ensayos necesarios para obtener r éxitos. Es decir, el número de éxitos está predeterminado y lo aleatorio es el número de ensayos. SE puede decir que esta variable es el opuesto de una variable binomial.

Fx (x;p;r) = x - 1  (1-P)^x-1(P)^r
                                                                            r - 1

r = Exito fijo
P= Constante
X= variable aleatoria -(número de intentos)


DISTRIBUCIÓN HIPERGEOMÉTRICA

Se usa para calcular la probabilidad de que una muestra aleatoria de n artículos seleccionados sin reemplazo, obtengamos x elementos identificados como éxitos, y n-x como fracasos. Para que suceda esto debemos obtener x éxitos de los r de la población, y n-x fracasos de los N-r de la población

F(x) = r .  N - r
            x    n - x   
                   N
                   n

DISTRIBUCIÓN POISSON

Es una distribución de probabilidad que muestra la probabilidad de x ocurrencias de un evento en un intervalo especificado de tiempo o e espacio.


Las propiedades de un experimento de Poisson son:


  • La probabilidad de una ocurrencia es igual en dos intervalos cualesquiera de igual longitud.
  • La ocurrencia o no ocurrencia en cualquier intervalo es independiente de la ocurrencia o no ocurrencia en cualquier otro intervalo.

La distribución de Poisson se expresa como: 

(x = cantidad de ocurrencia)


f(k;\lambda)=\frac{e^{-\lambda} \lambda^k}{k!},\,\!


PROBABILIDAD CONDICIONAL

Cuando la probabilidad de ciertos eventos depende o se ve influenciada por la ocurrencia de otros.


A la probabilidad de que un evento B se de cuando se sabe que algún otro evento A se ha presentado se le llama probabilidad condicional y se denota:


SP ( B/A)

Para cualquier evento B se tiene:

B= BÇS
B= BÇ(AUAC)
B=(BÇA) U (BÇAC)





TEOREMA DE BAYES

Expresa la probabilidad condicional de un evento aleatorio A dado en B en terminos de la distribución de probabilidad condicional del evento B dado en A y la distribución de probabilidad marginal de solo A, vincula la probabilidad de A dado B y con la probabilidad de B dado A.

A partir de que ha ocurrido el suceso B deducimos la probabilidad del suceso A.

Sea: 
{A1, A2, A3, ... Ai... Am}

Un conjunto de sucesos mutuamente excluyentes y exhaustivos.

Cada vez que la probabilidad de cada uno de ellos es distinta a cero; sea B un suceso cualquiera del que se conocen las probabilidades sea:

P(B/Ai)

Entonces la probabilidad de Ai dado B esta dado por la expresión:

P(Ai/B) = P(B/Ai) P(Ai)  
                                                                                     P(B)

P(Ai/B) = P(B/Ai) P(Ai)  
                                                                               ΣP(Ai) P(B/A)
P(Ai)= Probabilidad a Priori
P(B/Ai) = Probabilidad de B en la primera hipotesis.

COMBINACIÓN

Un arreglo de los elementos se define como el número de combinaciones de N objetos de n en n


Formula:
     
c= N =         N!         
               n     n! ( N - n)!


PERMUTACIÓN

Permite calcular el número de resultados experimentales cuando se seleccionan n objetos de un N objetos.

Formula:

PN =         N!         
              n      ( N - n)!

Ejemplos de combinaciones y permutaciones los encontraremos en el siguiente enlace:
http://www.youtube.com/watch?v=718BaTGTqps&feature=related


ESPERANZA MATEMÁTICA

Originalmente el concepto de esperanza matemática surgió en relación con los juegos de azar y en su forma mas simple es el producto de la cantidad que un jugador puede ganar y la probabilidad de que ganara.

Formula:

E = n . P

En el siguiente enlace encontraremos en forma mas detallada todo lo relacionado con esperanza matemática o valor esperado.

DIAGRAMA DE ARBOL

Es una herramienta que se utiliza para determinar todos los posibles resultados de un experimento aleatorio.

Ejemplo:

Experimento: Suponga que de un proceso de fabricación se seleccionan tres artículos de forma aleatoria. Cada articulo se inspecciona se clasifica como defectuoso o no defectuoso.

Espacio muestral = S
S={DDD, DDN,DND,DNN,NDD,NND,NNN}
n(s)=8

TABULACIÓN CRUZADA

La tabulación cruzada es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una sería de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta.





PARADOJA DE SIMPSON

Conclusiones que se obtienen a partir de dos o mas tabulaciones cruzadas y se invierten cuando se agregan los datos en una sola tabulación cruzada.

Un ejemplo que se presenta habitualmente para ilustrar esa situación es la comparación de las tasas de mortalidad de dos hospitales, que pueden favorecer de forma global al hospital A frente al B, y sin embargo al analizarlas por procedimentos se descubre que cambia el signo de la diferencia, debido a que los pacientes con peor prónostico y patologías más graves son internados en el hospital B con mayor frecuencia.

Vamos a plantear un ejemplo concreto: en un estudio comparativo sobre tolerancia de dos fármacos antihipertensivos se determina la presencia o no de efectos secundarios leves y se obtiene los siguientes datos:

Tratamiento
AB
Efecto secundarioNO410434844
SI11591206
5255251050

Donde vemos que el 21.9 % de pacientes tiene algún efecto adverso en el grupo A, frente a 17.3 % en el grupo B, diferencia importante pero que no llega al nivel de significación estadística habitualmente aceptado, ya que p = 0.07.

Pero si se separa el estudio en pacientes ancianos (> 75 años) y el resto (< 75 años) se obtienen las siguientes tablas
Pacientes < 75 años

Tratamiento
AB
Efecto secundarioNO122351473
SI85462
130405535

ahora la proporción de efectos adversos, en los pacientes de menos de 75 años, es 6.2 % en el grupo A, frente a 13.3 % en el grupo B, diferencia que es importante y además estadísticamente significativa, p = 0.027, y con signo contrario a la observada en el estudio completo.

En el otro grupo de pacientes de más edad:

Pacientes > 75 años

Tratamiento
AB
Efecto secundarioNO28883371
SI10737144
395120515

tenemos un 27.1 % pacientes con reacciones adversas en A, frente a 30.8 % en el grupo B, p = 0.42

Vemos que al considerar la edad (según la clasificación escogida), la relación cambia de signo: en el estudio global era superior la tasa de efectos adversos en el grupo A, pero al estratificar por edad en ambos casos es menor en el grupo A que en el B. Lo resumimos en la siguiente tabla.

ABp
Global21.9 %17.3 %0.07
< 756.2 %13.3 %0.03
> 7527.1 %30.8 %0.42

La interpretación de una paradoja de este tipo no siempre es fácil, sobre todo cuando hay más de dos estratos; incluso es posible que en ocasiones no tenga interpretación, y en cualquier caso ésta depende siempre de las características de cada estudio.

En este ejemplo está claro que, para ese punto de corte en la edad (75 años), los dos grupos de tratamiento están muy desequilibrados: la proporción de ancianos es de 75.2 % en el grupo A, frente a 22.9 % en el grupo B, y la tasa de efectos adversos en el grupo de pacientes con menos de 75 años es del 11.6 % frente al 28 % en los pacientes ancianos.

MEDIDAS DE ASOCIACIÓN ENTRE DOS VARIABLES


Las medidas de asociación tratan de estimar la magnitud con la que dos fenómenos se relacionan. Se emplean:


Covarianza: Es una medida de asociación entre dos variables y se calcula:


Muestral: Sxy= Σ(xi - X) (yi - Y)  
                     n-1

Poblacional: Sxy= Σ(xi - \mux) (yi .\muy)
                     N

Coeficiente de correlación: Puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

Muestral: rxy = Sxy    
                                Sx Sy
Poblacional: Pxy = Õxy    
                                     Õx Õy

Coeficiente de regresión: Indica el número de unidades en que se modifica la variable dependiente “Y” por efecto del cambio de la variable independiente “X” o viceversa en una unidad de medida.

Clases de coeficiente de Regresión: El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.
Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente “Y”.

Es negativo, cuando las variaciones de la variable independiente “X” son inversamente proporcionales a las variaciones de las variables dependientes “Y”.

Es nulo o cero, cuando entre las variables dependientes “Y” e independientes “X” no existen relación alguna.

Se calcula: 
y - Y = Sxy  
             S² y

Y - Yl = m (x - xi)


Grafico de dispersión:


En el siguiente enlace veremos un ejemplo de las medidas de variabiliadad y dispersión:
http://www.youtube.com/watch?v=xKzze0nTD0g

MEDIDAS DE VARIABILIDAD Y DISPERSIÓN

Nos ayudan a determinar la variación de los datos y determinan como se agrupan o se dispersan los datos alrededor de un promedio.


Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).


Rango intercuartil: Representa el 50% de los datos centrales


IQR = Q3 - Q1

Varianza: Sirve para comparar la variabilidad de dos o mas variables. La hay de dos tipos:

Muestral: S² = Σ(xi - X)²  
                        n-1

Poblacional: Õ² = Σ(xi -  \mu )²  
                       N


Desviación estandar: Es una medida que informa de la media de distancias que tienen los datos repecto de su media aritmetica expresada en las mismas unidades que la variable.

Muestral: S = \sqrt{\ }

Poblacional: Õ = \sqrt{\ }Õ²

Punto Z: Determina que tan lejos esta un punto de la media y se calcula:

Z = xi - X   
           S

Campa de Gauss: La campana de Gauss es una representación gráfica de la distribución normal de un grupo de datos. Éstos se reparten en valores bajos, medios y altos, creando un gráfico de forma acampanada y simétrica con respecto a un determinado parámetro. El punto máximo de la curva corresponde a la media, y tiene dos puntos de inflexión a ambos lados.

Este gráfico se usa en variables asociadas a fenómenos naturales: caracteres morfológicos de individuos como la estatura o el peso, caracteres fisiológicos como el efecto de un fármaco, caracteres sociológicos como el consumo de un determinado producto por un mismo grupo de individuos,  caracteres psicológicos como el cociente intelectual.


Teorema de Chevichev: Permite conocer a cierta escala el comportamiento de sus individuos sabiendo la media y la desviación tipica.

1 - 1  
     Z²

Diagrama de CajaUn diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".

Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.



Para el calculo de los "bigotes" se utiliza la siguiente formula:

Limite inferior: Q1 - 1,5(IQR)
Limite superior:  Q2 + 1,5(IQR)