Êtes-vous intéressé par eux OFFRES? Économisez avec nos coupons sur WHATSAPP o TELEGRAM!

Qu'est-ce que Mamba, l'architecture qui vise à dépasser complètement le GPT. Nouvelle ère de l’IA ?

18 janvier 2024

un serpent numérique représente symboliquement l'architecture Mamba en intelligence artificielle

Aujourd'hui, je veux aller un peu plus technique. On parle tous les jours d’intelligence artificielle mais il est juste de savoir sur quoi elle repose et comment elle fonctionne. À cet égard, je souhaite vous présenter Mamba, une nouvelle architecture qui promet de changer modèles linguistiques tels que nous les connaissons aujourd'hui. Les fonctionnalités de Mamba, par rapport à celles de GPT, sont extrêmement supérieures ainsi que ce qu'il vous permet de faire.

Mamba est un nouvel horizon pour l'intelligence artificielle

L'architecture Transformer, introduite en 2016 à travers le document «L'attention est tout ce dont vous avez besoin» de Google, a représenté une avancée majeure pour les modèles linguistiques, leur permettant de maintenir le contexte dans les interactions. En bref : l'architecture Transformer est un modèle d'IA utilisé pour créer des modèles comme GPT (Transformateur pré-entraîné génératif).

COMMENT FONCTIONNE L'ARCHITECTURE DU TRANSFORMATEUR

Le cœur de l’architecture Transformer est le mécanisme de «attention», qui permet au modèle de se concentrer sur des parties spécifiques d’un texte tout en en générant ou en en traitant une autre. Ce mécanisme rend Transformers particulièrement efficace pour comprendre le contexte et les relations complexes au sein d'un texte. En pratique, les modèles basés sur l'architecture Transformer, comme GPT, ils apprennent à générer et à comprendre le langage en deux étapes principaux : formation (formation) et inférence (génération de texte).
Au cours de l' Formation, le modèle est entraîné sur de grands ensembles de données textuelles pour comprendre les structures linguistiques, les relations entre les mots, le contexte, etc. En phase de inférence, le modèle utilise ce qu'il a appris pour générer du nouveau texte, répondre à des questions, traduire des langues et effectuer d'autres tâches de traitement linguistique.

Cependant, l’émergence de Mamba pourrait marquer le début d’une nouvelle ère. Cette architecture promet d'être plus efficace, capable de surmonter certains défis clés rencontrés par les modèles actuels tels que GPT. Plus précisément, trois aspects clés font de Mamba une architecture prometteuse :

coûts d'inférence réduits: Un aspect clé de Mamba est la réduction significative des coûts d'inférence. Comme je l'ai déjà dit, l'inférence est le processus par lequel un modèle d'IA, après avoir été formé, applique ce qu'il a appris à de nouvelles données, générant du texte ou des images. Dans les modèles complexes tels que GPT-3 ou GPT-4, ce processus peut être coûteux en termes de ressources informatiques. Mamba promet de réduire ces coûts jusqu'à cinq fois par rapport aux modèles basés sur Transformer, ce qui pourrait avoir un impact significatif, en particulier pour les applications qui nécessitent une génération de réponses rapides ou qui fonctionnent avec d'énormes ensembles de données ;
coût de calcul de l'attention linéaire: Le deuxième avantage de Mamba concerne l'efficacité du calcul de l'attention. Dans les modèles Transformer, le coût augmente pratiquement (justement au niveau du pouvoir, ce n'est pas une figure de style) à mesure que la longueur du texte augmente. Cela signifie que plus le texte est long, plus il faut de ressources pour le traiter, ce qui limite la praticité des modèles dans certaines applications. Mamba propose une solution où le coût augmente linéairement par rapport à la taille de la fenêtre d'attention, rendant le traitement de textes longs plus gérable et moins onéreux en termes de calcul ;
apport extrêmement important: Mamba pourrait gérer une fenêtre de saisie maximale jusqu'à 1 million de jetonsn, bien plus que ce qui est possible avec l'architecture Transformer. Cela signifie que Mamba pourrait, en théorie, analyser et comprendre des textes extrêmement longs, comme des livres entiers, en maintenant la cohérence et les détails dans leur contexte. Par exemple, il pourrait analyser un roman entier tout en conservant une compréhension claire des personnages, de l'intrigue et des thèmes du début à la fin.

Malgré les promesses de Mamba, le papier relances des doutes sur son évolutivité, en particulier par rapport à des modèles massifs comme GPT-4, qui comportent 175 milliards de paramètres. L'évolutivité, en termes très simples, fait référence à la capacité d'un système à gérer une augmentation de travail ou à croître en taille sans perdre en efficacité. Imaginez un petit restaurant qui réussit avec peu de clients. Si le restaurant devient populaire et commence à avoir beaucoup plus de clients, il devrait être en mesure de gérer cette augmentation sans compromettre la qualité du service ou de la nourriture. Si cela réussit, alors il est « évolutif ».

Mamba, dans son état actuel, a été testé seulement avec 3 milliards de paramètres. Ainsi, il reste incertain si ses performances et son efficacité peuvent être maintenues ou améliorées lorsqu’elles sont étendues à des tailles plus grandes.