L'approccio di Shopify che sfrutta l'incorporamento e il clustering frequenti per migliorare la spiegabilità dei dati

Shopify ha recentemente lanciato a Blog sulla tecnologia Informazioni su alcuni dei processi interni di machine learning su come ottenere informazioni più fruibili in base ai segnali dei clienti. Una delle maggiori sfide per qualsiasi attività online è ottenere informazioni utili dai propri dati per il processo decisionale. Shopify condivide la sua metodologia e competenza per risolvere questo problema aggregando diversi set di dati attraverso un metodo unico che include riduzione della dimensionalità, ridondanza e apprendimento automatico supervisionato. Questo approccio produce risultati robusti e fornisce informazioni e interpretazioni migliori. Aiuta i ricercatori utenti e i data scientist a migliorare la loro comprensione, migliorare le loro soluzioni e iterare in modo più efficiente fino alla soluzione finale. Inoltre, questo metodo include un livello interpretativo, che facilita la convalida dei risultati per la comunicazione con le parti interessate. Il diagramma seguente illustra questo metodo di alto livello.

Diagramma completo del flusso di lavoro

Basandosi sul post del blog, l'autore ha proposto un metodo con 4 semplici passaggi:

Rendi i dati gestibili.

Collezionalo.

Comprendilo (e aspettalo).

Comunicatelo.

Il primo passo in questo processo è trovare un modo per visualizzare i dati per gestirli al meglio. La sfida principale è che in pratica dobbiamo avere a che fare con dati ad alta dimensione. Un approccio pratico consiste nell'utilizzare tecniche di riduzione della dimensionalità come l'analisi delle componenti principali o… PCA. La sfida principale che la PCA deve affrontare è che in molti casi non tutte le informazioni possono essere presentate in due dimensioni. L'autore ha suggerito di utilizzare le tecniche più recenti per approssimare e progettare la varietà unificata o UMAP Invece di PCA La differenza principale tra PCA e UMAP è che UMAP è un metodo di proiezione che preserva la somiglianza locale e globale dei punti nella dimensione inferiore ed è non lineare rispetto a PCA. Ciò catturerà le relazioni non lineari tra i dati. Ad esempio, l'autore ha mostrato la differenza nei risultati durante l'utilizzo Mnist (Set di dati modificato del National Institute of Standards and Technology). MNIST ha 784 dimensioni per rappresentare i numeri scritti da 0 a 9 I seguenti numeri Mostra le differenze.

Una volta visualizzati i dati e ottenuto un senso iniziale, dobbiamo creare alcuni raggruppamenti significativi. Come accennato nell'articolo, questo gruppo dovrebbe avere le seguenti caratteristiche per facilità di spiegazione:

Un punto appartiene ad un blocco se il blocco esiste.

Se hai bisogno di parametri per il tuo gruppo, rendili intuitivi.

I gruppi devono essere stabili, anche quando cambiano l'ordine dei dati o le condizioni iniziali

Molti algoritmi di clustering, ad es K-significa E HDBSCAN (Clustering spaziale basato sulla densità gerarchica di applicazioni con rumore), esiste in quest'area. HDBSCAN sfrutta un approccio gerarchico che combina metodi di clustering con metodi DBSCAN per produrre cluster più robusti e significativi. Esperimenti approfonditi condotti su Shopify hanno dimostrato che HDBSCAN produce costantemente risultati più chiari e stabili.

Nel perseguimento di una comprensione più profonda del comportamento di gruppo, l’applicazione ricorsiva delle tecniche di clustering diventa essenziale. Questo processo iterativo consente una migliore comprensione delle complesse dinamiche all'interno dei gruppi. Successivamente, una volta generato un numero sufficiente di cluster, diventa applicabile l'applicazione di tecniche supervisionate, in particolare la classificazione. Metodologie di classificazione consolidate, ad es XGBoostpuò essere utilizzato come modello unico per ciascun gruppo.

Inoltre, fusione giovanotto Migliora l'interpretabilità e chiarisce le motivazioni sottostanti all'interno di ciascun gruppo. Questo duplice approccio, che combina HDBSCAN per il clustering iniziale e la successiva classificazione tramite XGBoost, potenziato da SHAP per l'interpretabilità, costituisce una metodologia completa per ottenere informazioni approfondite sul comportamento di diverse popolazioni.

Nella fase finale, è necessario comunicare i risultati al gruppo di data science e alle altre parti interessate e ripetere il processo per arrivare, se necessario, alla soluzione finale.

Una metodologia simile è stata utilizzata con successo anche in altre discipline come Rilevamento di anomalie nei dati sanitari.

Molti ingegneri del machine learning trovano questo lavoro entusiasmante. Come qualcuno ha commentato su LinkedIn Condividi questo lavoro :

Umap e Shap sono veri e propri punti di svolta e componenti essenziali dei flussi di lavoro di analisi avanzata

READ Xiaomi 11i Hypercharge arriva con una ricarica da 120 W il 6 gennaio

Il film documentario iraniano “Destiny” vince due premi all'Italian Veto Doc Festival

Mario Draghi riuscirà a ricaricare l’economia italiana?

Olimpiadi di Parigi: Marcel Jacobs, il tanto criticato campione italiano in carica dei 100 metri, torna in forma

QCon London: Netflix risparmia tempo e denaro con le notifiche basate sul server

QCon London: Netflix risparmia tempo e denaro con le notifiche basate sul server

HashiCorp rilascia Consul 1.19 con una migliore integrazione con Kubernetes e Nomad

Gli ex sviluppatori di Pixelberry si stanno unendo per formare Candlelight Games

Queste straordinarie funzionalità AI di Galaxy Z Fold 6 e Galaxy Z Flip 6 stanno arrivando sui vecchi dispositivi Galaxy

L'approccio di Shopify che sfrutta l'incorporamento e il clustering frequenti per migliorare la spiegabilità dei dati

QCon London: Netflix risparmia tempo e denaro con le notifiche basate sul server

HashiCorp rilascia Consul 1.19 con una migliore integrazione con Kubernetes e Nomad

Gli ex sviluppatori di Pixelberry si stanno unendo per formare Candlelight Games

Main Menu

Menu

Popular Category