Rejoignez les newsletters quotidiens et hebdomadaires pour obtenir les dernières mises à jour et le contenu exclusif pour couvrir la principale intelligence artificielle de l’industrie. Apprendre encore plus
Une course de modèles open source continue de devenir plus intéressante.
aujourd’hui , Amnesty International Institute (AI2) Il est apparu pour la première fois dans la dernière entrée de la course avec le lancement du modèle de langue open source (LLM). Le nouveau modèle ne correspond pas aux capacités OpenAI 4O, mais plutôt le modèle V3 Deepseek dépasse les normes critiques.
Ce n’est pas la première fois que AI2 fait des allégations audacieuses sur un nouveau modèle. En novembre 2024, la société a publié sa première version de Tülu 3, qui contient 8 lery. À cette époque, AI2 a affirmé que le modèle était également avec le dernier GPT-4, Claud’s Anthropic’s Claude et Google’s Gemini. La grande différence est que Tülu 3 est open source. AI2 a également affirmé en septembre 2024 que ses modèles Molmo avaient réussi à surmonter le GPT-4O et Claude sur certains critères.
Bien que les données de performance standard soient intéressantes, la plus utile est les innovations de formation qui permettent le nouveau modèle AI2.
Payer une formation après la limite
La grande pénétration de Tülu 3 405b est enracinée dans la première innovation avec la première version de Tülu 3 en 2024. Cette version a utilisé un ensemble de technologies de formation avancées pour s’améliorer.
Grâce au modèle Tülu 3 405B, les techniques post-formation ont été poussées plus loin, en utilisant une méthodologie avancée après une formation qui combine le contrôle de supervision, l’apprentissage des préférences et la nouvelle approche d’apprentissage qui s’est révélée exceptionnelle dans les normes les plus importantes.
« Les recettes de Tülu 3 après la formation Tülu 3-405B, notre plus grand modèle, entièrement ouvert après la formation, et accueille le domaine de jeu en fournissant des recettes, des données, des symboles et de l’autonomisation ouverts des développeurs et des chercheurs pour atteindre les performances similaires à la première -Classe Modèles fermés.
L’avancement de l’intelligence artificielle open source après une formation avec RLVR
Le post-formation est quelque chose que les autres modèles font, y compris Deepseek V3 aussi.
La principale innovation qui aide à faire la distinction entre Tülu 3 est « l’apprentissage du renforcement AI2 des bonus vérifiés » (RLVR).
Contrairement aux programmes de formation traditionnels, RLVR utilise des résultats de contrôle et de vérification pour résoudre correctement les problèmes mathématiques pour ajuster les performances du modèle. Cette technique, lorsqu’elle est combinée à l’amélioration des préférences directes (DPO) et aux données de formation soigneusement coordonnées, a permis au modèle de réaliser une meilleure précision dans les tâches de réflexion complexes tout en maintenant de solides propriétés de sécurité.
Les principales innovations artistiques incluent l’application RLVR:
- Traitement parallèle efficace sur 256 unités de traitement graphiques
- Coïncidence de poids optimal
- Distribution d’un compte équilibré via 32 contrats
- Déploiement Vllm intégré à la direction du tendeur parallèle 16
Le système RLVR a montré des résultats améliorés sur l’échelle de l’enseignant 405B par rapport aux modèles plus petits. Le système a également montré des résultats particulièrement solides dans les évaluations de la sécurité, dépassant les performances profondes V3, LLAMA 3.1 et HERMES 3. En particulier, le cadre RLVR est l’efficacité du modèle, indiquant des avantages possibles d’applications étendues.
Comment comparer Tülu 3 405B à GPT-4O et Deepseek V3
Le modèle compétitif est particulièrement noté dans la scène actuelle d’Amnesty International.
Tülu 3 405b correspond non seulement aux capacités GPT-4O, mais surclasse également Deepseek V3 dans certaines régions, en particulier avec les normes de sécurité.
Grâce à un groupe de 10 normes internationales d’Amnesty, y compris des normes de sécurité, AI2 a indiqué que le Tülu 3 405B RLVR était un score moyen de 80,7, contournant Deepseek V3 75.9. Cependant, Tülu n’est pas bon dans GPT-4O, qui a enregistré 81,6. En général, les normes indiquent que Tülu 3 est 405b au moins très compétitif avec GPT-4O et Deepsek V3 via les normes.
Pourquoi l’open source de l’intelligence artificielle est-elle et comment faire AI2 différemment
Ce qui rend Tülu 3 405b différent pour les utilisateurs, cependant, c’est comment AI2 a rendu le modèle disponible.
Il y a beaucoup de bruit sur le marché de l’intelligence artificielle autour de l’open source. Deepseek dit que son modèle est open source, ainsi que Meta’s Llama 3.1, que Tülu 3 est 405b est supérieur à lui.
Avec Deepseek et Llama, les formulaires sont disponibles pour une utilisation; Et certains code, mais pas tous, sont disponibles.
Par exemple, Deepseek-R1 a publié le modèle pré-formé et pèse le code mais pas les données de formation. AI2 adopte une approche différente pour tenter d’être plus ouverte.
« Nous ne bénéficions d’aucun ensemble de données fermé. » « Comme pour notre première version Tülu 3 en novembre 2024, nous émettant toutes les loi sur les infrastructures. »
Elle a ajouté que l’approche entièrement ouverte pour AI2, qui comprend le code et les modèles de données et de formation, garantit que les utilisateurs peuvent facilement personnaliser leur pipeline pour tout, du choix des données à l’évaluation. Les utilisateurs peuvent accéder à un ensemble complet de modèles Tülu 3, y compris Tülu 3-405B, sur AI2 Tülu 3 pagesOu Tülu 3-405B Test de fonction dans le stade AI2 Espace expérimental.
Lien source