Trois papiers Deep Learning à lire en janvier 22

Data IA Macine learning Deep Learning

Dans cet article, nous proposons un résumé de 3 papiers Deep Learning à lire en janvier 2022.

‘N-Beats: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting’

Auteurs : Oreshkin et al. (2020)
Papier : lien
Github :
lien

Résumé :

Les modèles traditionnels de prévision des séries chronologiques (time series), tels que le modèle ARIMA, proviennent du monde de l'économétrie financière et reposent sur des moyennes mobiles ajustées pour les composantes de tendance et de saisonnalité.

Ils ont tendance à n'avoir que peu de paramètres, tout en conservant une bonne interprétabilité.

Récemment, les modèles hybrides, qui combinent des réseaux neuronaux récurrents (RNN) avec des prévisions différentiables, sont devenus de plus en plus populaires.

Cela permet un ajustement flexible des fonctions, tout en conservant les biais inductifs des approches plus classiques.
Mais est-il également possible de former des prévisions compétitifs, qui sont basés sur des approches pures de Deep Learning ?

Dans N-Beats, les auteurs présentent une nouvelle architecture de réseau pour la prévision de séries temporelles univariées, qui établit un nouveau SOTA sur le benchmark M3, M4 et tourism.

L'architecture se compose de plusieurs stacks de blocs résiduels, qui effectuent simultanément la prévision et le backcasting.
Les prévisions partielles des différentes stacks sont combinées dans la prédiction finale pour l'horizon temporel considéré.
De plus, la base des prédictions des stacks individuels peut être soit apprise, soit fixée à une forme fonctionnelle appropriée et interprétable. Il peut s'agir par exemple de polynômes de faible dimension pour capturer une tendance ou de fonctions périodiques pour les composantes saisonnières.

Les auteurs combinent leur approche avec des techniques d'assemblage fusionnant des modèles formés sur différentes métriques, fenêtres d'entrée et initialisations aléatoires.

Ils montrent en outre que les gains de performance se saturent à mesure que l'on ajoute des stacks et analysent visuellement que les prédictions de stack à base fixe sont effectivement interprétables.

machine learning pipeline data mlops

‘Learning in High Dimension Always Amounts to Extrapolation’

Auteurs : Balestriero et al. (2021)
Papier : lien

Résumé :

Les réseaux de neurones (NNs) peuvent-ils seulement apprendre à interpoler ?
Balestriero et al. soutiennent que les réseaux neuronaux doivent extrapoler pour résoudre des tâches de haute dimension.

Leur raisonnement repose sur une définition simple de l'interpolation, à savoir qu'elle se produit chaque fois qu'un point de données tombe dans la coque convexe des données d'apprentissage observées.
Comme la dimensionnalité de l'espace d'entrée brut croît linéairement, le volume de cet espace croît à un rythme exponentiel.

Les humains ont du mal à visualiser l'intuition géométrique au-delà des espaces 3D, mais ce phénomène est communément appelé la malédiction de la dimensionnalité.

Mais que se passe-t-il si les données se trouvent sur une dimension inférieure ? Est-il alors possible de contourner la malédiction de la dimensionnalité et d'obtenir une interpolation avec seulement quelques échantillons ?

Dans une série d'expériences synthétiques, les auteurs montrent que ce qui importe réellement n'est pas la dimension brute du collecteur mais la dimension dite intrinsèque, c'est-à-dire le plus petit sous-espace affine contenant le collecteur de données.
Ils montrent que pour les ensembles de données de computer vision les plus courants, la probabilité qu'un échantillon de l'ensemble de test soit contenu dans la coque convexe de l'ensemble d'apprentissage diminue rapidement lorsque le nombre de dimensions d'entrée considérées augmente.

Les auteurs soulignent également que ce phénomène est présent pour les intégrations de réseaux de neurones ou différentes techniques de réduction de la dimensionnalité. Dans tous les cas, le pourcentage d'interpolation diminue lorsque le nombre de dimensions d'entrée considérées augmente. Qu'est-ce que cela peut nous apprendre ?

Pour que les réseaux neuronaux parviennent à résoudre une tâche, ils doivent fonctionner en régime d'"extrapolation" ! Mais ils ne généralisent pas tous aussi bien que les autres. Cela ouvre donc de nouvelles questions sur la relation entre cette notion spécifique d'extrapolation et la généralisation. Quels rôles jouent par exemple l'augmentation et la régularisation des données ?

deep learning machine learning

‘Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the Hessian’

Auteurs : Parker-Holder et al. (2020)
Papier : lien
Google Colab :
lien

Résumé :

Les problèmes modernes d'apprentissage profond doivent souvent faire face à de nombreux optima locaux.
Il a été démontré que la descente de gradient est biaisée vers des solutions simples à haute courbure.

L'optimum local auquel aboutit la procédure d'optimisation peut dépendre de nombreux facteurs arbitraires tels que l'initialisation, l'ordonnancement des données ou des détails comme la régularisation. Mais que se passe-t-il si, au lieu d'essayer d'obtenir un seul optimum, nous cherchons plutôt à explorer simultanément un ensemble diversifié d'optima.

C'est ce que vise l'algorithme Ridge Rider, en suivant de manière itérative les vecteurs propres du Hessian ayant des valeurs propres négatives - les "ridges". Les auteurs montrent que cette procédure permet de réduire localement les pertes tant que les vecteurs propres varient régulièrement le long de la trajectoire.
En suivant ces différentes courbes, Ridge Rider est capable de couvrir de nombreux optima locaux différents dans les contextes de RL tabulaire et de classification MNIST.
Les auteurs montrent que Ridge Rider peut également aider à découvrir des politiques de coordination optimales sans avoir accès aux symétries sous-jacentes du problème.
En résumé, Ridge Rider transforme un problème d'optimisation continu en une recherche discrète sur les différentes courbes.

Il ouvre une voie prometteuse pour l'optimisation robuste. Mais il reste également de nombreuses questions ouvertes en ce qui concerne l'évolutivité de la méthode, notamment la décomposition efficace des courbes et l'exploration simultanée de plusieurs vecteurs propres.

En savoir plus

Contactez nos équipes pour en savoir plus sur notre expertise Data

NOUS CONTACTER

Adopter Iziday

Trouver une solution à vos enjeux Data n'a jamais été aussi simple

Lancer votre projet