This website uses cookies

Read our Privacy policy and Terms of use for more information.

El pozo de las suposiciones

#2

Seguramente has tenido que buscar alguna forma de resumir tus datos y has usado la media para ello. Has hecho lo que la mayoría haría, sin pensarlo. Y esto puede no llevarte a la respuesta correcta en ciertas ocasiones. A lo largo de este artículo descubrirás por qué la media es una medida sensible a error, como puedes usarla con seguridad y que alternativas puedes usar.

La media

Imagina que vas a analizar el tiempo de fabricación de un producto para después establecer el precio de venta. Para establecer el tiempo total de producción, puede que digas algo como… Cogemos los 10 últimos registros, hacemos la media y ¡una cosa menos! Te quedas más ancho que alto pensando en que probablemente será suficiente y que todo el mundo hará algo parecido a lo que acabas de hacer. Para ilustrarte este problema, cogeré un conjunto de 50 datos en total (en horas), los cuales se muestran a continuación:

4.84 4.14 4.56 4.55 4.94 9.50 4.90 4.75 4.99 4.81 4.77 4.44 4.69 4.05 4.37 4.15 4.30 4.90 4.95 4.01 4.96 4.38 4.71 4.36 4.89 4.86 4.50 4.07 4.88 4.78 4.31 4.23 4.22 4.44 4.25 4.14 4.64 4.66 4.55 4.89 4.30 4.63 4.45 4.18 4.66 4.50 4.44 4.23 4.97 4.09

He marcado el sexto valor porque corresponde a una situación inusual en la que se produjo una avería en la maquinaria de la producción y la fabricación se disparó muy por encima de lo normal. Lo primero que quiero que veas, es como el número de registros influye en la media. Para ello puedes mirar la siguiente gráfica:

La diferencia entre la media de los 10 últimos registros y la de los 50 últimos es de más de 30 minutos de trabajo. Si pasas esto a coste, y después calculas el PVP asociado, puede que tu producto haya variado lo suficiente para dejar de ser competitivo, por lo que deberías hacerte la siguiente pregunta: ¿puedes permitirte asumir ese error y bajar el precio para vender más?

He de decirte algo que puede que te alivie: ese problema tiene solución. En realidad, ya has visto cuál es una de las soluciones, aumentar el número de registros te da una media más real que utilizar pequeñas muestras, por lo que siempre utiliza un conjunto de datos amplio (tampoco tienen que ser miles). Además, te voy a mostrar a continuación dos alternativas: la primera de ellas es eliminar los datos anómalos o utilizar la mediana.

Eliminar los datos anómalos

En este caso en concreto, eliminar un dato es muy fácil, puesto que sabemos que sólo hay uno y sabemos localizarlo fácilmente. Sin embargo, esto no siempre es posible y puede que te pierdas en un mar de datos. Para estos casos recomiendo filtrar los datos, ya sea en un Excel o en cualquier otro programa al que estés habituado. Si hacemos esto con el conjunto anterior, el resultado sería el siguiente:

Ahora se puede apreciar que la diferencia entre los 10 primeros registros y los 50 totales es de 10 minutos, por lo que el posible error se ha reducido a la tercera parte. Si decides hacer esto, debes tener en cuenta que este proceso previo debes hacerlo siempre que hagas tu análisis, pero como verás, te da una certeza mucho mayor y puedes bajar tu precio de venta para ser más competitivo. Aunque parezca tedioso, es un proceso típico en todo análisis de datos ya que puede aportarte beneficios a largo plazo.

Utiliza la mediana en lugar de la media

Todo el mundo conoce la media (no me digas que tu no), pero a muchos se les pasa que existen otros indicadores para medir el centro de tus datos. Otro de esos elementos es la mediana, la cual muestra el valor central de los datos obtenidos, dejando el 50% de los datos a la izquierda y el 50% a la derecha. Para ello (aunque no lo vayas a hacer manualmente lo explico para que lo entiendas mejor) se reordenan los registros de menor a mayor y se escoge el valor central. Si trabajamos con un número par de elementos, la mediana se calculará como la media entre los dos valores centrales. Veamos el ejemplo anterior. Primero, se reordenan los datos de menor a mayor y después se busca el valor central:

Para los 10 últimos registros

4.14 4.55 4.56 4.75 4.81 4.84 4.90 4.94 4.99 9.50

Para los 10 últimos registros la mediana es (4.81 + 4.84)/2 = 4.825

Para los 30 últimos registros

4.01 4.05 4.07 4.14 4.15 4.30 4.36 4.37 4.38 4.44 4.50 4.55 4.56 4.69 4.71 4.75 4.77 4.78 4.81 4.84 4.86 4.88 4.89 4.90 4.90 4.94 4.95 4.96 4.99 9.50

Para los 30 últimos registros la mediana es (4.71 + 4.75)/2 = 4.73

Para los 50 registros totales

4.01 4.05 4.07 4.09 4.14 4.14 4.15 4.18 4.22 4.23 4.23 4.25 4.30 4.30 4.31 4.36 4.37 4.38 4.44 4.44 4.44 4.45 4.50 4.50 4.55 4.55 4.56 4.63 4.64 4.66 4.66 4.69 4.71 4.75 4.77 4.78 4.81 4.84 4.86 4.88 4.89 4.89 4.90 4.90 4.94 4.95 4.96 4.97 4.99 9.50

Para los 50 registros totales la mediana es 4.55

La diferencia entre la mediana de los últimos 10 registros y la de los 50 registros totales varía en algo más de 16 minutos, lo cual reduce el error de la media casi a la mitad. No obstante, puede que no te hayas percatado de algo: la mediana en 50 registros es muy parecida a la media obtenida de los 50 registros y eliminando el registro anómalo. Esto sucede porque la mediana es un valor menos sensible a los valores anómalos (no le afecta tanto) por lo que puede ser una gran herramienta para tu estrategia de pricing. Es por ello, que no debes quedarte sólo en calcular una media sino que debes indagar más para saber si realmente has obtenido un dato veraz que puedas utilizar para tomar decisiones.

Estudia tus datos para obtener el mayor beneficio

Para concluir este artículo, quiero resumir lo que hemos visto para que puedas aplicarlo fácilmente a tus análisis. Como has visto, no es nada complicado. Además cualquier software de hojas de cálculo o similar (Excel, Google Sheets, …) contiene fórmulas para poder hacer los cálculos rápidamente, por lo que no debe ser una excusa para no hacerlo.

Si quieres utilizar todas estas herramientas, mi consejo es que lo hagas de esta forma:

  1. Recoge un número amplio de registros (al menos 30) sin excederte para que los cálculos no sean tediosos.

  2. Calcula la media.

  3. Calcula la mediana.

  4. Compara los dos valores y mira si hay diferencias entre ambos. Si las hay, busca valores anómalos entre ellos (son fáciles de localizar, estarán en los extremos si los ordenas de menor a mayor).

  5. Basa tu estrategia en estos datos limpios y más seguros que si sólo hubieses usado la media.

Si crees que este artículo puede ser de utilidad para alguien que conozcas te invito a que le compartas el enlace.

Si no te has suscrito aún puedes hacerlo para seguir recibiendo artículos como este en tu correo.

Nos vemos fuera del pozo,

Manuel de El Pozo de las Suposiciones.

Reply

Avatar

or to participate