Dynamic Architectural Optimization of Artificial Neural Networks

Kaitlin Maile

Résumé

Despite the significant and exponential advancements in artificial neural networks (ANNs), their current capabilities still fall short of human-like intelligence. Many assumptions of current artificial learning approaches diverge from the observed characteristics of the brain, such as conventionally static and hand-designed ANN architectures opposed to dynamic and self-modifying biological connectivity. This thesis aims to further progress by exploring structural learning as a brain-inspired tool for augmenting the power of ANNs, taking initial steps of expanding architectural search spaces and learning paradigms to real practical applications. Towards this end, the proposed structural learning framework unifies multiple subfields of artificial intelligence research and identifies key foundational challenges that are investigated in the subsequent work. Towards architectural search space generalization, equivariance-aware neural architecture search (NAS) optimizes the architectural constraints imposed by partial equivariance to symmetry groups, enhancing the performance and generalization of ANNs for tasks exhibiting symmetries. Algorithmic improvements to differentiable NAS, focusing on dynamic scheduling and regularization, enhance the efficiency and reliability of the search process. Neurogenesis in ANNs, a relatively unstudied problem, is decomposed into scheduling and initialization decisions towards a suite of neurogenesis strategies that enable the dynamic growth of performant networks. Finally, aspects of all of the preceding findings are synthesized towards architectural optimization in dynamic learning environments such as transfer learning. The findings and methodologies presented have the potential to significantly impact the standard pipeline of ANNs, reducing engineering, training, and deployment costs while increasing their efficacy and power for practitioners.

Malgré les progrès considérables et exponentiels des réseaux neuronaux artificiels (ANNs), leurs capacités actuelles sont encore loin de l’intelligence humaine. De nombreuses hypothèses des approches actuelles de l’apprentissage artificiel divergent des caractéristiques observées du cerveau, telles que les architectures ANN conventionnellement statiques et conçues à la main, opposées à la connectivité biologique dynamique et auto-modifiante. Cette thèse vise à faire avancer les choses en explorant l’apprentissage structurel en tant qu’outil inspiré du cerveau pour augmenter la puissance des ANNs, en prenant des mesures initiales pour étendre les espaces de recherche architecturaux et les paradigmes d’apprentissage à des applications pratiques réelles. À cette fin, le cadre d’apprentissage structurel proposé unifie plusieurs sous-domaines de la recherche en intelligence artificielle et identifie les principaux défis fondamentaux qui sont étudiés dans les travaux ultérieurs. En ce qui concerne la généralisation de l’espace de recherche architecturale, la recherche d’architecture neuronale (NAS) tenant compte de l’équivariance optimise les contraintes architecturales imposées par l’équivariance partielle aux groupes de symétrie, améliorant ainsi les performances et la généralisation des ANNs pour les tâches présentant des symétries. Les améliorations algorithmiques apportées à la recherche d’architecture neuronale différentiable, axées sur la planification dynamique et la régularisation, renforcent l’efficacité et la fiabilité du processus de recherche. La neurogenèse dans les ANNs, un problème peu étudié, est décomposée en décisions d’ordonnancement et d’initialisation vers une suite de stratégies de neurogenèse qui permettent la construction automatique et dynamique de réseaux performants. Enfin, les aspects de tous les résultats précédents sont synthétisés en vue d’une optimisation architecturale dans des environnements d’apprentissage dynamiques tels que l’apprentissage par transfert. Les résultats et les méthodologies présentés ont le potentiel d’avoir un impact significatif sur le pipeline standard des RNA, en réduisant les coûts d’ingénierie, de formation et de déploiement tout en augmentant leur efficacité et leur puissance pour les praticiens.

Dynamic Architectural Optimization of Artificial Neural Networks

Optimisation architecturale des réseaux neuronaux artificiels

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager