Publicado: Feb 10, 2021
A transformação de ML FindMatches no AWS Glue agora inclui informações sobre o quanto cada coluna no conjunto de dados contribuiu para determinar se os registros são correspondências. A transformação FindMatches permite identificar registros duplicados ou correspondentes no conjunto de dados, mesmo quando os registros não têm um identificador único comum e nenhum campo corresponde exatamente. Esse recurso torna mais fácil decidir como melhorar suas transformações FindMatches.
Anteriormente, era preciso usar um processo iterativo e seguir os guias de práticas recomendadas sobre engenharia de atributos para melhorar as transformações de ML FindMatches. Com as métricas de importância da coluna, o AWS Glue fornece feedback direto sobre o peso do conteúdo de cada coluna ao determinar que conjuntos de registros correspondem entre si. Você pode usar essas informações para transformar seu conjunto de dados a fim de melhorar a qualidade da correspondência.
A transformação de ML FindMatches está disponível nas mesmas regiões da AWS que o AWS Glue.
Para saber mais sobre FindMatches, consulte nossa documentação.