Un ponderato

Blog

CasaCasa / Blog / Un ponderato

Oct 17, 2023

Un ponderato

Scientific Reports volume 13, numero articolo: 14061 (2023) Cita questo articolo Dettagli delle metriche Nella cultura digitale odierna basata sui dati, esiste una domanda critica di soluzioni ottimizzate che essenzialmente

Rapporti scientifici volume 13, numero articolo: 14061 (2023) Citare questo articolo

Dettagli sulle metriche

Nell'odierna cultura digitale basata sui dati, esiste una domanda critica di soluzioni ottimizzate che riducano sostanzialmente le spese operative tentando al tempo stesso di aumentare la produttività. La quantità di memoria e il tempo di elaborazione che possono essere utilizzati per elaborare enormi volumi di dati sono soggetti a una serie di limitazioni. Ciò sarebbe senza dubbio più problematico se un set di dati contenesse informazioni ridondanti e poco interessanti. Ad esempio, molti set di dati contengono una serie di caratteristiche non informative che principalmente ingannano un determinato algoritmo di classificazione. Per affrontare questo problema, i ricercatori hanno sviluppato una varietà di tecniche di selezione delle caratteristiche (FS) che mirano a eliminare le informazioni non necessarie dai set di dati grezzi prima di metterli di fronte a un algoritmo di apprendimento automatico (ML). Gli algoritmi di ottimizzazione metaeuristici sono spesso una scelta solida per risolvere problemi NP-hard come FS. In questo studio presentiamo una tecnica wrapper FS basata sull'algoritmo Sparrow Search (SSA), un tipo di meta-euristica. SSA è un metodo di swarm intelligence (SI) che si distingue per la sua rapida convergenza e la migliore stabilità. L'SSA presenta alcuni inconvenienti, come una minore diversità dello sciame e una debole capacità di esplorazione nelle iterazioni successive, come la maggior parte degli algoritmi SI. Quindi, utilizzando dieci mappe caotiche, proviamo a migliorare la SSA in tre modi: (i) la generazione iniziale dello sciame; (ii) la sostituzione di due variabili casuali in SSA; e (iii) bloccare i passeri che attraversano il raggio di ricerca. Di conseguenza, otteniamo CSSA, una forma caotica di SSA. Confronti approfonditi mostrano che CSSA è superiore in termini di diversità dello sciame e velocità di convergenza nel risolvere varie funzioni rappresentative del set di benchmark del Congress on Evolutionary Computation (CEC) dell'Institute of Electrical and Electronics Engineers (IEEE). Inoltre, l'analisi sperimentale di CSSA su diciotto set di dati ML interdisciplinari e multiscala provenienti dal repository di dati dell'Università della California Irvine (UCI), nonché tre set di dati di microarray ad alta dimensione, dimostra che CSSA supera dodici algoritmi all'avanguardia in un compito di classificazione basato sulla disciplina FS. Infine, un'analisi statistica post-hoc con livello di significatività del 5% basata sul test dei ranghi con segno di Wilcoxon, sul test dei ranghi di Friedman e sul test di Nemenyi conferma la significatività del CSSA in termini di idoneità complessiva, accuratezza della classificazione, dimensione delle caratteristiche selezionate, tempo di calcolo, traccia di convergenza e stabilità.

Il ventunesimo secolo è diventato l’era dei dati, con l’analisi e l’utilizzo dei dati visibili ovunque in tutti gli aspetti della vita, e questi dati hanno spesso un carattere altamente dimensionale1,2,3,4,5. Tuttavia, è inevitabile che questi dati contengano un numero sostanziale di caratteristiche ridondanti e irrilevanti, aumentando il sovraccarico computazionale e il rischio di overfitting quando gestiti dai tradizionali algoritmi di machine learning (ML)6,7,8. Di conseguenza, per utilizzare meglio i dati, è necessario sviluppare procedure efficienti, come la selezione delle caratteristiche (FS), per gestire le caratteristiche prive di valore9,10,11. Wrapper, filtri e tecniche FS integrate vengono comunemente utilizzati per differenziarli in base alla loro valutazione per sottoinsiemi di funzionalità12. Gli approcci basati su wrapper si basano su algoritmi ML predefiniti per ottenere una maggiore precisione di classificazione, ma sono molto costosi da calcolare perché gli algoritmi ML devono essere eseguiti numerose volte13. Al contrario, durante la valutazione dei sottoinsiemi di funzionalità, gli approcci basati su filtri non utilizzano alcun algoritmo ML, il che riduce i costi di calcolo ma può ridurre l’accuratezza della classificazione14. Le tecniche integrate incorporano il FS nell'apprendimento del modello, tenendo conto dell'influenza del modello algoritmico e riducendo al tempo stesso il peso computazionale; tuttavia, questi metodi hanno una scarsa capacità di generalizzazione e una significativa complessità computazionale15.

Poiché il numero di sottoinsiemi di caratteristiche varia geometricamente a causa della dimensionalità dei dati, è difficile produrre risultati adeguati utilizzando metodi tradizionali, soprattutto quando si lavora su dati ad alta dimensionalità. Per ridurre l'elevato costo computazionale causato dalla maledizione della dimensionalità, è possibile sviluppare nuovi approcci di selezione di sottoinsiemi di funzionalità basati su algoritmi SI (wrapper swarm intelligence) grazie alla loro robustezza e adattabilità16,17,18. Gli algoritmi SI hanno tre caratteristiche essenziali: flessibilità, auto-organizzazione e resilienza. Questi algoritmi sono spesso ispirati al comportamento di gruppo in natura, come il foraggiamento, l’antipredazione e la migrazione19. Gli algoritmi SI tipici sono l'ottimizzazione delle colonie di formiche (ACO)20, l'ottimizzazione dello sciame di particelle (PSO)21, l'ottimizzatore del lupo grigio (GWO)22, la colonia di api artificiali (ABC)23, l'algoritmo di ottimizzazione delle balene (WOA)24, l'algoritmo di ottimizzazione delle cavallette (GOA) 25, l'ottimizzazione di Harris Hawks (HHO)26 e l'algoritmo dello sciame di uccelli (BSA)27. Altri algoritmi di ottimizzazione includono l'algoritmo bat (BA)28, l'ottimizzazione della ricerca atomica (ASO)29 e l'ottimizzazione della solubilità del gas di Henry (HGSO)30. In generale, gli algoritmi meta-euristici possono gestire efficacemente i problemi FS, riducendo la complessità computazionale e ottenendo allo stesso tempo una maggiore accuratezza della classificazione, e gli approcci SI sono stati, quindi, applicati in modo coerente ai problemi FS31,32,33,34. Ad esempio, Hussain et al.35 hanno integrato l'algoritmo seno-coseno (SCA) in HHO per bilanciare le capacità di esplorazione e sfruttamento di HHO, e i risultati sperimentali su diversi problemi di ottimizzazione numerica e FS hanno rivelato il vantaggio competitivo dell'algoritmo proposto rispetto a altri algoritmi SI. Neggaz et al.36 hanno applicato per primi l'HGSO per risolvere i problemi di FS. I risultati sperimentali su set di dati con diverse dimensioni delle caratteristiche (da 13 a 15009) hanno mostrato che HGSO è efficace nel ridurre al minimo le dimensioni delle caratteristiche, specialmente su dati ad alta dimensione, preservando la massima accuratezza della classificazione.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>