Get hands-on experience with 20+ free Google Cloud products and $300 in free credit for new customers.

optimizacion para quita de duplicados

Tengo una tabla grande que puede tener duplicados, lo que hago es una vista con un row_number(), el tema que al hacerlo lo hace sobre todo el universo de la tabla genera mucho gasto.
Para no traer y borrar siempre el histórico particione la tabla por fecha de actualización y traigo los registros de ayer y borro los registros de ayer sin tocar el histórico, el tema aquí que por el rango tan chico puedo tener duplicados ya que si ese registro metió un id hace 5 días  yo al buscar y borrar por un día si hubo una actualización ayer me lo va a meter generando duplicidad.
Lo que intente es traer los id de ayer y borrar los IDs que traigo de la tabla histórica. Pero tabien genera gran gasto por que el delete se fija en el universo entero.(incluso particione la tabla por ID)
Intente luego un merge, me genera más gasto que lo anterior.
Intente vista materializada, no soporta el row_numbre, intente cambiar el row_numbre por un group by haciendo el inner join con la misma tabla para quedarme con el máximo ID, las vistas materializadas tampoco soporta que instancies mas de una vez a una tabla.
Se me están quemando los libros, alguna sugerencia????

yoguille_0-1709838052104.png

 

 



 
0 3 1,426
3 REPLIES 3