jueves, 30 de abril de 2020

Tema 8: Teoría de muestras. Tipos de muestreo. Teoría de la estimación. Tamaño de la muestra.

Tema 8 (I).

Estimación e inferencia estadística.

En la mayoría de las investigaciones no se trabaja con toda la población de estudio, ya que supondría un trabajo muy grande y un coste alto, por ello tomamos una muestra de esta población.

Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos técnicas de muestreo. 

Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se denomina muestreo probabilistico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio.

Proceso de interferencia estadísticas.
La muestra es el subconjunto de elementos de una población. Para que los resultados obtenidos en ella puedan generalizarse, es decir, inferirse a la población de donde se ha tomado, la muestra debe ser:
  • Representativa de la población diana de la que procede: la representatividad de la muestra está, en parte, condicionada con la técnica de muestreo utilizada, como se explica más adelante.
  • De una tamaño adecuado: es el otro factor que influye en la representatividad. Debe ser lo suficientemente grande para garantizar que la muestra representa a la población diana, y lo suficientemente pequeña para facilitar el análisis.
  •  Comparable: como ya se ha explicado, en los estudios analíticos en los que se compara un grupo con otro, ambos deben ser similares al inicio del estudio. Esto hará que se pueda concluir que las diferencias encontradas entre ambos grupos son solo consecuencias de la exposición o no al factor o de la aplicación o no de la intervención.
Procedimientos muestral.

El muestreo se define como el proceso de selección de la muestra.

Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estábamos estudiando.

Hay dos tipo de muestreo:  

Muestreo no probabilístico.

Las unidades que componen la población tienen diferentes probabilidad de ser elegidas ya que no solo interviene el azar sino también. Otras condiciones.

No se puede calcular la probabilidad de antemano y no todos los elementos tienen alguna posibilidades de ser incluido.

Dentro de lo no probabilístico hay 5 subtipos:
  • Muestreo consecutivo: Es el más utilizado. Si se hace bien puede ser la representatividad de la muestra puede ser semejante al del muestreo probabilístico. 
    • Desventajas: 
      • Que no se haga de forma enteramente consecutiva sino que haya interrupciones.
      • Periodo de reclutamiento corto o que haya fluctuaciones.
  • Muestreo de conveniencia o accidental: se recluta a los individuos que son más accesibles para el equipo investigador o que se presentan voluntariamente. Se usa con frecuencia al ser al menos costoso y más facil.
    • Desventajas:
      • Poco sólida ya que no requiere de una gran homogeneidad de la variable, estudiada en la población. Género sesgo importantes.
  • Muestreo intencional o a criterio: El propio investigador es quien selecciona a los individuos al considerarlo los más apropiados. Se usa cuando se quiere contar con una muestra de expertos o a estudios cualitivativos.
    • Desventajas: 
      • Este método puede no contar con un método extremo y objetivo para valorar la idoneidad de los sujetos.
  • Muestreo bola de nieve, de avalancha o muestreo en cadena: El propio investigador elige a un participante que cumpla los criterios de inclusión y el mismo tiempo se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así sucesivamente hasta que se tenga recogida la muestra.  Muy utilizada en estudios cualitativos.
    • Ventajas:
      • Se puede acceder a parte de la población con difícil acceso o difíciles de identificar, por ejemplo, poblaciones marginadas como sectas.
  • Muestra teórica: La selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría o porque la integración de la muestra se va diciendo sobre la marcha. Los participantes deben de cubrir todas las características, perfiles y patrones que puedan influir de el fenómeno estudiado.






lunes, 27 de abril de 2020

Tema 7: Teoría de la probabilidad.

Tema 7 (II).

Reglas básicas: teoría de la probabilidad.

  • Las probabilidades de un evento o suceso siempre oscilan entre 0 y 1.
  • La probabilidad de que un evento o suceso sea segura es = a1.
  • La probabilidad de un suceso o evento imposible es=0
  • La unión de A y B es:
    • P(AUB)=P(A)+P(B)-P(A П B)
  • La probabilidad de un suceso contrario o del complemento es igual a 1 menos la probabilidad del suceso.
    • P (A´)= 1-P(A)
  • La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada y se define.
Teorema de Bayes.

Es utilizado para calcular la probabilidad de un suceso, teniendo información de antemano sobre ese suceso.

En términos más generales el teorema de Bayes que vincula la probabilidad de A dado B con la probabilidad de B dado A.


Distribución de probabilidad en variables discretos: Binomial y Poison

Distribución binomial.

Es un modelo matemático de distribución teórica de variables discretas.
  • Cuando se producen situaciones en las que sólo existen dos posibilidades.
  • El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
  • La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de A` es 1-p y la representamos por q.
  • El experimento consta de un número "n" de pruebas.
Mediante esta distribución se resuelve los problemas que plantean:

Si al hacer un experimento hay una probabilidad p de que ocurra un suceso.
  • P: probabilidad de ocurrencia, "q" de no ocurrencia.
  • X: número sucesos favorables.
  • N: número total de ensayos.
Distribución de Poisson.

Se dice que la variable aleatoria discreta, cuyos valores posibles son: 0, 1, 2...etc. Tienen distribución de Poisson con parámetro λ y se escribe X. P(λ). En la siguiente formula hay un errata, donde e elevado a λ es negativo (-λ).

Utilidad :
  • La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatorio. En otros palabras no se sabe el total de posibles resultados.
  • Permite determinar la probabilidad de ocurrencia de un suceso con resultado discreto.
  • Es muy útil cuando la muestra o segmento "n" es grande y la probabilidad de éxitos "p" es pequeña.
  • Se utiliza cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento "n" dado como por ejemplo distancia, área, volumen, etc. 
Donde:
  • P(X=x): es la probabilidad de ocurrencia cuando la variable discreta X toma un valor finito x.
  • λ: promedio de ocurrencias es un intervalo (tiempo, volumen, área, etc.).
  • e: tiene un valor aproximado de 2,71828183...
  • x: es el número de ocurrencias.
Distribución normal.


Tipificación de valores en una normal.

Extrapolando aparecen los principios básicos de la distribución normales y podemos tipificar valores de una normal.
  • ± 1S → 68,26% de las observaciones.
  • ± 2S → 95,45% de las observaciones.
  • ±1,95S →95% de las observaciones.
  • ±3S → 99,73% de las observaciones.
  • ±2,58 → 99% de las observaciones.
Tipificación de los valores y su relación con la campana de Gauss.

La tipificación de los valores se puede realizar sí:
  • Trabajamos con unas variables continuas que:
    • Sigue una distribución normal (TLC).
    • Y tiene más de 100 unidades (LGN).
  • La tipificación nos permite conocer si otro valor corresponde o no a esa distribución de frecuencia.
Sabemos por la forma de la curva que, la media coincide con lo más alto de la campana (8) y la desviación típica es de 2 puntos.
  • El 50% tienen puntuaciones >8.
  • El 50% tienen puntuaciones <8.
  • Aproximadamente el 68% puntúa entre 6 y 10.
    • Media ±  1 desviación típica: 68%.
      • 8+ / -1: 6-10.
    • Media ±  2 desviación típica: 95%.
      • 4-12.
    • Media ± 3 desviación típica: 99%.
      • 2-14.








Tema 7: Teoría de la probabilidad.

Tema 7 (I).

El concepto de probabilidad es la parte de las matemáticas que estudia los fenómenos aleatorios,  muy frecuente para comunicarnos y entendernos.

Por ejemplo: las probabilidades de sobrevivir a una operación son del 50%.

Hay dos categorías amplias de interpretaciones de la probabilidades las cuales pueden ser llamadas probabilidades:
  • "Fisicas" = objetivas.
  • "Evidenciales subjetivas o personalitico.
  • Clásico (dado o moneda).
  • F relativa o posteriori (enfoque empirico). 
  • Subjetiva.
Probabilidad subjetiva o personalistica.


Se refiere a la probabilidad de ocurrencia de un suceso basado en la experiencia previa, la opinión personal o la intuición del individuo. En este caso después de estudiar la información disponible, se asigna un valor de probabilidad a los sucesos basado en el grado de creencia de que el suceso pueda ocurrir. La probabilidad mide la confianza que el individuo tiene sobre la certeza de una proposición determinada.

Este concepto de las probabilidades ha dado lugar al enfoque de análisis de datos estadístico llamado "estadistica Bayesiana".

Probabilidad clásica o "a priori".


La probabilidad clásica es aquella en la que todos los casos posibles de un evento tienen la misma probabilidad de ocurrir. Estos son, si un dado normal es lanzado, la probabilidad de que caiga un 1 es igual a 1/6, y es lo mismo para los otros cinco lados. La probabilidad se calculan con un razonamiento abstracto. Esta definición es más fácil de entender, pero vamos a ver una definición un poco más teorica.

Si un evento puede ocurrir de "N" formas, las cuales se excluyen mutuamente y son igualmente probables, y si "m" de esos eventos poseen una características "E", la probabilidad de ocurrencia de "E" es igual a m/n.



Ley de los grandes números.

La probabilidad a priorir de que salga un número en el dado.

P(A) = 1/6 = 0.166 = 16.6%.

Esa probabilidad real puede no cumplirse pero si repetimos muchas veces el experimento, la frecuencia relativa de un suceso A, cualquiera, tiende a estabilizarse en torno al valor "a priori".

Probabilidad relativa o " a posteriori".

Si un suceso es repetido un gran número de veces, y si algún evento resultante, con la caracteristica "E", ocurre "m" veces, la frecuencia relativa de la ocurrencia "E", m/n, es aproximadamente igual a la probabilidad de ocurrencia de "E".


Dicho de otra forma, si el numero de determinaciones, es decir, repeticiones de un experimento aleatorio, es grande, podemos esperar que la probabilidad observada se acerque a la probabilidad teórica.

Evento o sucesos

Cuando se realiza un experimento aleatorio diversos resultados son posibles. El conjunto de todo los resultados posibles se llama espacio muestral (S).

Se llama suceso o evento a un subconjunto de dichos resultados.

Se llama evento complementario de un suceso A, formado por lo elementos que no están en A y se denota AC.

Se llama evento de unión de A y B, AB al formado por los resultados experimentales que están en A o en B (incluyendo todos lo que están en ambos).
Se llama evento de intersección de A y B, AB al formado por lo elementos que están en A y B.
Tipos de sucesos.
  • Sucesos independientes. 
    • Por ejemplo: ser rubio y lanzar los dados.
  • Sucesos dependientes.
    • Por ejemplo: Ser mujer y sufrir cáncer de mama.
  • Suceso compatibles: tienen algún suceso elemental común.
    • P(A∪B)= P(A)+ P(B)−P(AB) 
  • Sucesos incompatibles o excluyentes: Ningún suceso elemental común (A y B son contrarios).
    • P(A∪B)= P(A) U P(B)= P(A)+P(B)

  • Unión de sucesos: es el formado por todos los elementos de A y B. A∪B
  • Intersección de sucesos: es el suceso formado por todos los elementos que son, a la vez, de A y B. A∩B.
    • Por ejemplo. A= obtener una puntuación. B= obtener múltiplo de 3, A∩B. B=6.

















viernes, 10 de abril de 2020

Tema 6: Representación gráfica de la informacion. Representación variables cualitativos y cuantitativas discretas. Representación de variables cuantitativas continuas. Errores en la presentación.

Tema 6.

Las representaciones gráficas tienen una serie de características:
  • Es una forma rápida de comunicar información numérica.
  • Son la imagen de las ideas (barras, sectores, etc).
  • Pueden complementar un análisis estadístico, aumentando la información y ofreciendo orientación visual.
  • No reemplaza a la medidas estadísticas.
  • Algunas normas básicas como: visualmente claros, evitar gráficos confusos, etc.
Hay 3 tipos de representaciones gráficas más empleadas:
  • Variables cualitativas:
    • Gráficas de sectores:
      • El área de cada sector circular es proporcional a la frecuencia (absoluta o relativa) de las categorías de las variables.
      • Puede tener errores como variables policotómicas, es decir, muchas categorías y variable ordinal.
Veamos un ejemplo para poder comprender mejor la gráfica de sectores.


    • Diagrama de barras: 
      • Se usa también en variables cualitativa ordinales con este tipo de gráficos evitamos que se pierda los atributos de orden o jerarquía.
      • Cada barra representa una categoría y su altura la frecuencia (absoluta o relativa).
      • Es importante que las barras estén separadas y el eje Y debe empezar en la frecuencia 0.
      • Puede tener errores como: se comparan frecuencias absolutas y no son compatibles, se trata de una variable cuantitativa, etc.
Veamos un ejemplo para poder comprender mejor los diagramas de barras.


    • Pictogramas:
      • Es un tipo de gráfica, que en lugar de barras, utiliza figuras proporcionales a las frecuencias.
      • Un fallo que tiene es que no permite buenas comparaciones.
Veamos un ejemplo para poder comprender mejor la pictogramas.


  • Variables cuantitativas:
    • Histograma:
      • Es el más usado ya que es sencillo de interpretar.
      • La base de cada rectángulo representa la amplitud de cada intervalo y la altura está determinada por la frecuencia.
Veamos un ejemplo para poder comprender mejor los histogramas.


    • Polígonos de frecuencia:
      • Son muy útiles cuando se pretende comparar dos o más distribuciones.
      • Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra.
Veamos un ejemplo para poder comprender mejor los polígonos de frecuencias.


    • Gráficos de tronco y hoja:
      • Tiene la ventaja de no perder información individual, identifica la distribución de los datos.
      • Es un diagrama híbrido entre una tabla (información ordenada) y una gráfica (parecida al histograma).
Veamos un ejemplo para poder comprender mejor los gráficos de tronco y hoja.


  • Gráficos para datos bidimensionales:
    • Gráficos tendencia temporal:
Veamos un ejemplo para poder comprender mejor los gráficos tendencia temporal.


    • Diagramas de dispersión (nube de puntos o "scatter plot"):
      • Sirve para representar el comportamiento de dos variables continuas en un grupo de individuos.
      • En el eje "x" se representa la variable independiente y en el eje "y" los valores de la variable dependiente.
Veamos un ejemplo para poder comprender mejor los diagramas de dispersión.


    • Diagramas de estrellas:
      • Sirve para representar un conjunto de variable cuantitativas y comparar entre diferentes unidades de análisis (individuos o conglomerados).
      • Gráficamente da una idea del comportamiento conjunto de las variables estudiadas. 
Veamos un ejemplo para poder comprender mejor los diagramas de estrellas:













miércoles, 8 de abril de 2020

Tema 5: Estadísticas univariables: medidas resumen variables cuantitativos.

Tema 5 (II).
La medidas de dispersión es la información aportada por las medidas de tendencia central limitada. Un ejemplo sería:
  • Serie 1: 18, 19, 20, 21, 22.
  • Mediana serie 1 es 20.
Rango o recorrido (R), es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor. Es el recorrido de una variable.

Si ordenamos esta puntuación de menor o mayor tendriamos:
22, 40, 53, 57, 93, 98, 103, 108, 116, 121, 252.

La puntuación más alta era 252 y la puntuación más baja 22, por tanto el rango es 252- 22= 230.

Podemos encontrarnos con el recorrido intercualitico (RI), es la diferencia entre el tercer y el primer cuartil: |Q3- Q1|.

El rango semiintercuartil, es también conocido desviación cuartil o espectro semicuartil. Se formula se representa con la siguiente imagen:
La desviación media (DM), es la medida aritmética de las distancias de cada observación con respecto a la media de la muestra. La formula se puede observar con la siguiente imagen:
La varianza (S2), es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
  • Siempre tiene un valor positivo.
  • Se mide en unidades en unidades de la variable estudiada (al cuadrado).
  • Cuanto menor sea la varianza mayor homogeneidad y menor dispersión.
La desviación típica o estandar (S), expresa la dispersion de la distribución mediante un valor que es siempre positivo, y en las mismas univades de medidas de la variable, siendo la medida de dispersión más utilizada en estadistico descriptivo.
Tiene algunas propiedades como:
  1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
  2. Si a todos los valores de la variable se les suma un número la desviación típica no varía.
  3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
Y podemos decir también algunas observaciones típica como:
  1. La desviación tipica,  al igual que la media y la varianza, es un indice muy sensible a las puntuaciones extremos.
  2. En los casos que no se pueden hallar la media tampoco será posible hallar la desviación típica.
  3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.
El coeficiente de variación (CV), es también recibe el nombre de variabilidad relativo, puesto que es una medida de dispersión relativa de los datos. 
🔺Hay que tener en cuenta que no se debe usar cuando la variable presenta valores negativos o donde sea una cantidad fijada arbitrariamente. 
La formula podemos observarla con la siguiente imagen:

La distribución normal, también se puede conocer como distribución de Gauss. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de los valores posición central. Esta gráfica se conoce como campana de Gauss.
Hay 2 formas de medida:
  • Asimetrias: Es el coeficiente de asimetría de una variable, el grado de asimetría de la distribución de sus datos en torno a su media. Es adimensional y adopta valores entre -1 y 1. Con la siguiente imagen podremos ver mejor su interpretación: 

  • Curtosis o apuntamiento: Es el coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de las variables que toma en torno a su media. Se elige como referencia una variable con distribución, por tanto el coeficiente de curtosis es 0 y adopta también valores entre -1 y 1 (es una variable adimensional). Con la siguiente imagen podemos observar los resultados.













Presentación.

Datos personales: ¡¡Hola a todos!! Para comenzar este blog, me gustaría hablaros un poco de mí. Me llamo Manuel Reina Gómez,  soy estu...