Bon matin à tous !
Aujourd'hui, nous allons plonger dans "la mort du RAG."
De nombreux clients nous ont dit : "Mais pourquoi j’utiliserais du RAG si Gemini peut traiter des millions de tokens en entrée ?"
Alors, le RAG est-il mort ?
Avec les avancées rapides des LLMs et surtout l'augmentation de leur taille de fenêtre de contexte (taille du texte en entrée), beaucoup de gens pensent maintenant que faire du RAG avec des modèles à long contexte n'est plus nécessaire. Par exemple, le modèle gpt-4-0314
d’OpenAI du 14 mars 2023 ne pouvait traiter que jusqu'à 8 000 tokens. Maintenant, gpt-4o
peut traiter jusqu'à 128 000 tokens, tandis que gemini-1.5-pro
peut désormais traiter jusqu'à 2 millions de tokens. Cela représente environ 3 000 pages de texte !
Nous allons démystifier les différences entre le RAG et l'envoi de toutes les données en entrée, en expliquant pourquoi nous croyons que le RAG restera pertinent. Ça vous aidera à déterminer si le RAG est adapté à votre application.
À propos du RAG…
Continuez votre lecture avec un essai gratuit de 7 jours
Abonnez-vous à Parlons IA pour continuer à lire ce post et obtenir 7 jours d'accès gratuit aux archives complètes des posts.