Las combinaciones nos permiten completar la información que queremos representar con más de una fuentes de datos. El tema es que hay un error muy común a tener cuenta al crear combinaciones, ya que impactará la fiabilidad de los datos.
Las combinaciones son fuentes de datos en las que se combina la información de 2 o más datasets distintas. Estos datasets pueden venir de un mismo conector (como Google Sheets) o de varios distintos (como Google Analytics y Google Ads). Se pueden combinar hasta 5 tablas.
Estas nos permiten crear nuevos insights que analizando los datasets por separado no sería posible. Por ejemplo, combinando Google Analytics y Google Ads podemos obtener información sobre la correlación entre el comportamiento del usuario (que viene de Google Analytics) y el performance de nuestras campañas (que está en Google Ads) en una sola visualización. Si combinamos datos de nuestro CRM, nos daría acceso a información adicional para entender mejor el camino de nuestros clientes a la conversión o a la recurrencia.
Supón que tienes 2 tablas provenientes de fuentes de datos distintas. Una de ellas muestra el ID de transacción, el nombre del producto, los ingresos netos y el ID de cliente que llevó a cabo esa transacción. La otra tiene el ID del cliente, la edad, el género, la profesión y el sueldo anual.
Uniendo estas 2 tablas por ID de cliente van a proveer mucha más información sobre el tipo de cliente. Nos permitirá visualizar datos como los ingresos netos (tabla con transacciones) por género del cliente (tabla de clientes), que de otra manera hubiera sido imposible.
Existe un error al crear combinaciones con el que tener mucho cuidado, ya que puede generar datos erróneos en tu tabla final.
Las filas duplicadas, el error común al crear combinaciones
Existe la falsa concepción de que el resultado de un left join debe tener el mismo número que la tabla de la izquierda. Y si es un right join sería el mismo que el de la derecha. Esto no es así, ya que deben tener como mínimo el número de filas de la tabla de la izquierda para los left join y de la derecha para los right join. Verás por qué en el siguiente ejemplo.
Tengo una tabla con un listado de clientes junto con el producto que compraron, la cantidad y la fecha.
Por otro lado, tengo otra con los precios de los productos.
Quiero calcular las ventas totales y para eso tengo que multiplicar la cantidad como el precio. Para eso hago un left join de la tabla clientes a la izquierda con la de precios a la derecha. Este es el resultado:
¿Notas algo extraño? ¿Te has dado cuenta de que el ID de cliente LS-17200 que compra un 3M Office Air Cleaner aparece repetido?
Eso es porque en la lista de precios tenía 2 distintos para el producto 3M Office Air Cleaner. El campo que he usado para el left join ha sido solo el del nombre de producto, y como este está repetido en la tabla de la derecha, también se repetirá en la resultante. Es un error muy común al crear combinaciones.
La solución
Para solucionarlo tengo que usar 2 campos de unión: nombre de producto y fecha de compra. De este modo la combinación sabrá que el precio del producto que compró el cliente LS-172000 fue el del 1 de agosto de 2014. Sino lo unirá con las 2 transacciones, independientemente del cliente que la realizó, ya que la única información que estoy dando para unir las 2 tablas es el nombre del producto.
Hay que tener cuidado cuando hacemos combinaciones y esperamos que algunas columnas tengan valores únicos. Si no los tienen, eso nos puede llevar a terminar con valores duplicados en la tabla resultante, como en el ejemplo visto.
¿Te has encontrado este error anteriormente al crear combinaciones? ¡Cuéntame tu experiencia creando fuentes de datos combinadadas!