Vers des algorithmes d'apprentissage automatique économes en E/S pour les systèmes embarqués : application aux K-means et Random Forests

Camélia Slimani

Résumé

The abundance of digital data collected makes it possible to feed intelligent models, capable of extracting knowledge that can be used by humans. The training of these models, by Machine Learning algorithms, requires important computing, memory and storage resources. Consequently, this task is performed on powerful computers, which requires the transfer of data from the collection devices to the computers. To overcome the communication costs, the Edge Intelligence (EI) paradigm is emerging, bringing intelligence closer to the collection devices. EI raises many scientific challenges, including the execution of ML algorithms under time, energy, and memory space constraints present on embedded devices. We are particularly interested in the main memory space constraint. This space on collection devices is limited and may be insufficient to hold the training data. When the amount of data to be processed is larger than the available memory space, the operating system uses the swap mechanism to extend the available memory space by some of the secondary storage. As a result, the execution of the learning phase is slowed down by the accesses to the secondary storage (I/O), which are much slower than those to the main memory. Our goal is to analyze the I/O pattern of ML algorithms, determine its origin, and propose an I/O reduction method to accelerate these algorithms on embedded platforms. We have focused on two algorithmic case studies which are: K-MEANS and RANDOM FORESTS. In summary, we have shown through two examples, that the revision of algorithms can cope with the increase in the volume of training data by reducing the volume of I/O. The extension of this approach to other ML algorithms/families could be the subject of future work.

L’abondance des données numériques collectées permet d’alimenter des modèles intelligents, capables d’extraire de la connaissance exploitable par l’humain. L’entraînement de ces modèles, par des algorithmes de Machine Learning, requiert d’importantes ressources de calcul, de mémoire et de stockage. Par conséquent, cette tâche est effectuée sur des calculateurs puissants, ce qui nécessite le transfert des données des dispositifs de collecte, vers les calculateurs. Pour s’affranchir des coûts de communications, le paradigme de l’Edge Intelligence (EI) émerge, et rapproche l’intelligence au plus près des dispositifs de collecte. L’EI soulève de nombreux défis scientifiques, notamment l’exécution des algorithmes de ML sous des contraintes temporelles, énergétiques, et d’espace mémoire, présentes sur les dispositifs embarqués. Nous nous intéressons particulièrement à la contrainte d’espace en mémoire principale. Cet espace sur les dispositifs de collecte est limité et peut être insuffisant pour contenir les données d’apprentissage. Lorsque le volume de données à traiter est supérieur à l’espace mémoire disponible, le système d’exploitation utilise le mécanisme de swap afin d’étendre l’espace mémoire disponible par une partie du stockage secondaire. Par conséquent, l’exécution de la phase d’apprentissage est ralentie par les accès au stockage secondaire (E/S), bien plus lents que ceux à la mémoire principale. Notre objectif est d’analyser le motif des E/S des algorithmes de ML, de déterminer son origine, et de proposer une méthode de réduction des E/S pour accélérer ces algorithmes sur des plateformes embarquées. Nous nous sommes intéressés à deux cas d’études algorithmiques qui sont : le K-MEANS et les RANDOM FORESTS. En résumé, nous avons montré à travers deux exemples, que la révision des algorithmes permet de faire face à l’augmentation du volume de données d’apprentissage en réduisant le volume des E/S. L’extension de cette démarche à d’autres algorithmes/familles d’algorithmes de ML pourrait faire l’objet de travaux futurs.

Towards I/O-efficient Edge Intelligence algorithms : K-means and Random Forests

Vers des algorithmes d'apprentissage automatique économes en E/S pour les systèmes embarqués : application aux K-means et Random Forests

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager