¿Cómo evitar errores al calcular el GMV de un mercado internacional?

Cuando se trabaja con un mercado, será necesario calcular el Volumen Bruto de Mercancía (GMV). Al principio parece simple: todo lo que necesita es reunir los precios de todos los anuncios activos en una columna y hacer clic en SUMM. Sin embargo, si su mercado está operando en diferentes países, las cosas pueden no ser tan fáciles.

¿Por qué es difícil calcular el GMV?

Trabajo en Lalafo, un mercado peer-to-peer impulsado por IA. La plataforma tiene 3 millones de usuarios activos de 4 países cada mes. A fines de 2016, necesitábamos calcular el valor monetario total de todos los anuncios colocados en Lalafo para ese año.

Primero, resumimos todos los precios sugeridos por los usuarios, excluyendo todos los anuncios no colocados y bloqueados. ¡Esto resultó en un GMV que era más grande que el PIB de un país que usamos para la evaluación!

Limpiamos los datos y convertimos la moneda en tiempo real. Esto hizo que el total fuera más pequeño, pero todavía era irracionalmente grande.

La forma más popular de eliminar anomalías en un conjunto de datos desordenado es usar un rango intercuartil (rango de datos entre el percentil 25 y 75). Este enfoque tampoco resolvió el problema, ya que el volumen de los precios de los usuarios se volvió muy bajo después de que se implementó el rango intercuartil.

Presta atención a los percentiles.

Una rápida sesión de lluvia de ideas nos dio la idea de que el problema estaba en los valores porcentuales: la diferencia entre cero y el primero era demasiado dramática.

Un percentil (o un percentil) es una medida utilizada en estadísticas que indica el valor por debajo del cual cae un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el percentil 20 es el valor (o puntaje) por debajo del cual se puede encontrar el 20% de las observaciones. Los percentiles pueden actuar como lineales o no lineales dependiendo de si hay algún error en el conjunto de datos. (Wikipedia)

Decidimos revisar la forma en que actuaron todos los percentiles entre 1 y 100. Descubrimos que todos los datos entre el Percentil 1 y 99 eran lineales, mientras que entre 99 y 100 encontramos un gran aumento que indica que el error ocurre dentro de esta sección. Eliminamos todos los datos entre el percentil 99 y el 100 que resolvieron el problema.

La importancia de la categoría del producto.

El mercado de Lalafo contiene varias categorías de productos. Las categorías más "caras" son bienes raíces y vehículos. Para obtener un GMV más preciso, decidimos contabilizar las categorías de productos al calcular los percentiles. Por ejemplo, los vehículos y los percentiles inmobiliarios son docenas de veces más grandes que los de prendas de vestir.

Como resultado nosotros:
- determinó el valor del percentil para cada categoría.
- utiliza percentiles solo en casos de GMV no lineal.
Esto nos dio un GMV preciso.

Otra cosa importante: moneda

Los usuarios a menudo olvidan establecer la moneda al colocar sus anuncios. ¡Esto da como resultado que el iPhone 7S se venda por solo $ 20 o cocinas que cuestan más que todo el PIB de Colombia!

Para ajustar la moneda manteniendo los resultados de la edición del conjunto de datos para el percentil 99, decidimos hacer lo siguiente:

- Establezca un precio común para cada categoría que sea igual a la mediana (Percentil 50) de la categoría.
- mire a través del conjunto de datos y ajuste la moneda, en caso de que el valor sea demasiado bajo o demasiado alto.

Cálculo de GMV. Consejo general:

- los métodos comunes (mediana, rango intercuartil) funcionan solo bajo un GMV lineal. Si no funcionan, verifique dos veces los valores de todos los percentiles.

- Calcular percentiles por separado para cada categoría.

- Filtre sus datos antes de calcular.

- verificar los valores de la moneda.