Comment deux innovateurs de la génération Z ont rejeté les millions d'Elon Musk pour créer une IA inspirée par le cerveau qui surpasse l'OpenAI et les modèles anthropiques

Deux innovateurs de la génération Z, fraîchement sortis des laboratoires universitaires, ont refusé une offre de plusieurs millions de dollars d'Elon Musk pour poursuivre leur propre vision de l'IA inspirée par le cerveau. Au lieu de rejoindre xAI, ils ont choisi de construire une nouvelle architecture qui met l'accent sur la profondeur du raisonnement plutôt que sur la force brute. Leur système défie désormais les modèles de pointe d'OpenAI et d'Anthropic sur les benchmarks de raisonnement abstrait, ce qui soulève une question difficile pour le secteur : la prochaine génération d'IA est-elle capable d'atteindre ses objectifs ? intelligence artificielle sur la taille ou sur la façon dont le "cerveau" à l'intérieur du modèle pense.

Leur parcours relie la recherche en neurosciences de l'IA, les modèles petits mais efficaces et l'entrepreneuriat technologique à travers les États-Unis et la Chine. Ils ont commencé avec OpenChat, un modèle compact de langage étendu formé sur des dialogues de haute qualité, qui a attiré l'attention du monde entier après que des chercheurs de Berkeley et de Stanford se sont appuyés sur leurs travaux. La véritable percée a eu lieu plus tard, avec un modèle de raisonnement hiérarchique qui s'attaque au Sudoku, à la résolution de labyrinthes et aux tests de type AGI d'une manière que les transformateurs traditionnels ne parviennent pas à maîtriser. Pour les fondateurs, les ingénieurs et les décideurs politiques qui suivent l'innovation en matière d'IA, cette histoire montre comment un refus d'Elon Musk est devenu le déclencheur d'une voie différente vers une IA dépassant les modèles OpenAI et Anthropic.

Comment les innovateurs de la génération Z ont transformé le rejet d'Elon Musk en innovation dans le domaine de l'IA

Les deux innovateurs de la génération Z, William Chen et Guan Wang, se sont rencontrés au lycée dans le Michigan et se sont rapprochés autour d'une obsession commune pour l'intelligence. L'un rêvait d'un algorithme capable de résoudre n'importe quel problème, l'autre voulait optimiser des systèmes complexes. Des années plus tard, leur travail sur OpenChat est arrivé dans la boîte de réception d'Elon Musk, et xAI leur a fait une offre de plusieurs millions de dollars.

Ils ont décidé de dire non. Ce refus d'Elon Musk n'est pas dû à un manque de respect pour l'IA, mais à la conviction que les grands transformateurs se heurtent à des limites structurelles. Ils ont considéré l'innovation en matière d'IA non pas comme une négociation salariale, mais comme une chance de tester une voie différente vers l'intelligence artificielle générale.

  • Concentrez-vous sur les métaphores plutôt que sur les titres ou les marques.
  • Échangez de l'argent à court terme contre un contrôle à long terme sur l'orientation de la recherche.
  • Traiter les offres des fondateurs célèbres comme des signaux et non comme des destinations finales.
  • Utilisez l'intérêt des géants comme une validation, puis redoublez d'efforts pour trouver des idées originales.

En considérant une offre de Musk comme optionnelle plutôt qu'inévitable, ils ont conservé la propriété de leur feuille de route en matière d'IA inspirée par le cerveau et se sont positionnés comme des acteurs indépendants dans le domaine de l'intelligence artificielle de nouvelle génération.

Des lycéens du Michigan aux constructeurs d'IA neuroscientifiques

L'origine de cette histoire d'IA inspirée par le cerveau se trouve à Bloomfield Hills, dans le Michigan. Chen a fondé un club de drones, a poussé les administrateurs de l'école à autoriser les quadcoptères sur le campus et a passé des nuits blanches dans les laboratoires de robotique. Wang a suivi une voie parallèle, obsédé par les algorithmes capables de généraliser les tâches bien avant que le terme "AGI" ne devienne un terme courant.

Ils se sont tous deux retrouvés au laboratoire de cognition et d'intelligence inspirée par le cerveau de l'université Tsinghua, à Pékin. Les cours n'ont pas été faciles à suivre, surtout pour un étudiant élevé à San Diego et à Shenzhen qui s'adaptait au meilleur programme d'ingénierie de Chine. Pourtant, les professeurs se sont montrés intéressés lorsqu'ils ont compris que ces étudiants souhaitaient remettre en question les hypothèses sur lesquelles reposent les études à grande échelle. apprentissage automatique.

  • Au lycée : drones, robotique et longues discussions sur les "métagos".
  • Choix de l'université : ignorer le chemin habituel vers Carnegie Mellon ou Georgia Tech.
  • Laboratoire cérébral de Tsinghua : exposition directe aux sciences cognitives et à la modélisation neuronale.
  • Mentors : professeurs qui ont ouvertement soutenu l'ambition de l'AGI.

Ce mélange de culture américaine de bricolage, de rigueur chinoise en matière d'ingénierie et de recherche neuroscientifique sur l'IA a créé un contexte propice à une percée différente de l'IA, fondée sur la curiosité et non sur la conformité.

LIRE  La révolution de l'IA d'Apple : Dévoilement des plans pour deux versions de Siri de nouvelle génération

OpenChat, les petits modèles et le premier signal d'une IA dépassant l'OpenAI

Avant que l'IA inspirée par le cerveau ne devienne la mission principale, le duo a construit OpenChat à titre expérimental. Ils ont formé un petit LLM sur un ensemble de conversations de haute qualité, plutôt que sur d'immenses recherches sur Internet. Ils ont ensuite intégré l'apprentissage par renforcement dans la boucle de formation principale, à une époque où presque personne n'utilisait l'apprentissage par renforcement à grande échelle pour les modèles de langage, à l'exception de quelques équipes chinoises comme DeepSeek.

Une fois ouvert, OpenChat s'est rapidement répandu dans les cercles de recherche. Des laboratoires de Berkeley et de Stanford ont cloné le référentiel, ont superposé leurs propres travaux et ont commencé à citer le modèle comme un exemple de la manière dont les petits systèmes formés sur de bonnes données surpassent les modèles volumineux avec des corpus bruyants.

  • Petit LLM, données à fort signal, et forte curation des dialogues.
  • Apprentissage par renforcement pour l'amélioration de la conversation, et pas seulement pour la prédiction de texte supervisée.
  • Open source pour attirer les chercheurs au lieu d'une diffusion en circuit fermé.
  • La preuve que le nombre de paramètres ne suffit pas à définir la qualité d'un raisonnement.

OpenChat ne représentait pas encore l'IA surpassant l'OpenAI, mais il a donné aux innovateurs de la génération Z un signal fort indiquant que la communauté se souciait de stratégies de formation plus intelligentes et d'architectures alternatives.

Apprentissage par renforcement et DeepSeek parallèle

Lorsqu'ils ont rattaché RL à leur filière LLM, le seul groupe largement connu qui suivait une voie similaire était DeepSeek, en Chine. DeepSeek déstabilisera plus tard la Silicon Valley en mettant sur le marché des modèles légers et efficaces qui rivalisent avec les systèmes occidentaux sur plusieurs points de référence tout en consommant moins de ressources informatiques.

OpenChat a utilisé le RL pour permettre au modèle d'apprendre à partir du feedback, de récompenser les réponses cohérentes et utiles, et de pénaliser les comportements non utiles. Cela a transformé la formation en une boucle comportementale contrôlée plutôt qu'en une absorption brute de modèles.

  • Action : le modèle choisit des réponses dans un dialogue.
  • Retour d'information : des évaluateurs ou des mesures automatisées notent les résultats.
  • Récompense : les bons résultats renforcent certaines mises à jour de paramètres.
  • Itération : la boucle produit un comportement plus aligné et plus cohérent au fil du temps.

Cette approche d'apprentissage par renforcement s'aligne sur les principes de l'IA des neurosciences, où l'apprentissage découle de l'interaction et des conséquences, et pas seulement d'archives textuelles statiques.

L'architecture de l'IA inspirée par le cerveau remet en question les modèles anthropiques

Le véritable changement est intervenu avec leur modèle de raisonnement hiérarchique, une conception fondée sur la façon dont le cerveau équilibre les réactions rapides avec la pensée lente et délibérée. Au lieu d'empiler des transformateurs plus grands, ils ont construit un système récurrent qui sépare la reconnaissance rapide des modèles de la planification en plusieurs étapes.

Lors des premiers tests, un prototype de 27 millions de paramètres a surpassé les modèles d'OpenAI, d'Anthropic et de DeepSeek sur des benchmarks de raisonnement lourds. Il s'agissait notamment de tâches ARC-AGI, d'itinéraires en labyrinthe et de puzzles Sudoku-Extreme, le tout sans invite à la réflexion en chaîne ni recherche par force brute.

  • Structure en deux parties avec des couches réflexives rapides et des boucles de raisonnement plus lentes.
  • Des étapes de "réflexion" interne avant les réponses finales, et non une simple prédiction symbolique.
  • De meilleures performances dans les tâches de raisonnement abstrait avec beaucoup moins de paramètres.
  • Meilleure résistance aux raccourcis parasites par rapport aux transformateurs standard.

Ces résultats ouvrent la voie à une nouvelle génération d'intelligence artificielle axée sur des modèles compacts d'IA inspirés du cerveau qui rivalisent directement avec les grands modèles anthropiques dans les tâches de raisonnement.

De la prédiction du mot suivant à la pensée structurée

Les transformateurs traditionnels modélisent le texte comme une séquence de probabilités. Ils devinent le prochain jeton sur la base de modèles contextuels observés dans d'énormes ensembles de données. Cette méthode fonctionne bien dans le cas d'un langage courant, mais elle pose problème lorsqu'il s'agit de structures logiques profondes ou d'horizons de planification à long terme.

LIRE  Avis d'experts sur les développements de l'IA dans les voitures autonomes

L'approche du raisonnement hiérarchique insère une étape entre la perception et la sortie où le modèle construit un état interne, exécute des étapes hypothétiques, et seulement ensuite produit une réponse. Chen décrit ce changement comme le passage de la "devinette" à la "pensée" au sein du système d'IA.

  • Transformateurs : mise en correspondance de modèles dans des corpus massifs.
  • Modèle hiérarchique : états intermédiaires explicites pour les sous-objectifs et la planification.
  • Résultat : de meilleures performances en matière de puzzles, d'algorithmes et de mathématiques à plusieurs étapes.
  • Effet secondaire : diminution des taux d'hallucination dans les tâches factuelles et structurées.

Cette évolution offre une perspective aux fondateurs et aux ingénieurs qui souhaitent que l'innovation en matière d'IA prenne en charge des raisonnements complexes au lieu de se limiter à des textes polis.

Cas d'utilisation concrets où l'IA inspirée par le cerveau surpasse les LLM classiques

L'équipe de Sapient Intelligence indique que ses modèles égalent ou dépassent les systèmes de pointe dans plusieurs domaines qui exigent un raisonnement structuré. Plutôt que de se concentrer sur des discussions ouvertes, ils mesurent la valeur dans des domaines où la précision prédictive et la planification dans l'incertitude sont importantes.

Certains domaines d'application précoces permettent de vérifier la réalité du battage médiatique autour de l'IA surpassant l'OpenAI et les modèles anthropiques. Ils mettent en évidence des cas où de petites architectures disciplinées sont plus performantes que les chatbots généraux.

  • Prévisions météorologiques avec des dépendances temporelles complexes.
  • Des modèles quantitatifs de négociation qui s'adaptent aux changements de régime.
  • Surveillance médicale avec des changements de signaux subtils et des séries de données temporelles.
  • Contrôle des processus industriels où la stabilité et la sécurité sont essentielles.

Dans chacun de ces exemples, le moteur de raisonnement hiérarchique utilise sa structure interne pour raisonner sur des séquences, plutôt que d'extrapoler aveuglément à partir de modèles antérieurs.

Pourquoi les systèmes plus petits et plus intelligents sont importants pour les entreprises

Pour les directeurs techniques et les responsables de produits, la principale question pratique n'est pas de savoir si une startup peut battre OpenAI sur un critère de référence. La question est de savoir si un système d'IA plus compact, inspiré par le cerveau, offre un meilleur coût, une meilleure fiabilité et une meilleure interprétabilité dans des conditions réelles.

Les modèles plus petits qui réfléchissent plus efficacement offrent plusieurs avantages commerciaux, en particulier à l'heure où les prix de l'informatique et les règles en matière de protection de la vie privée se durcissent.

  • Coût d'inférence plus faible par requête grâce à un nombre réduit de paramètres.
  • Déploiement plus facile sur site ou à la périphérie pour les secteurs réglementés.
  • Réduction des taux d'hallucination dans les flux de travail critiques.
  • Des traces de raisonnement interne plus claires pour les équipes d'audit et de conformité.

Cet avantage pratique transforme la recherche neuroscientifique en IA d'une curiosité académique en un outil concret pour les entreprises qui évaluent les stratégies d'intelligence artificielle de la prochaine génération.

Leçons d'entrepreneuriat technologique tirées du parcours de Sapient Intelligence

Au-delà de l'architecture, l'histoire de Sapient Intelligence montre comment les innovateurs de la génération Z abordent différemment l'entrepreneuriat technologique. Ils ont combiné la recherche ouverte, l'éducation mondiale et des décisions audacieuses en matière de risque, au lieu de suivre le schéma standard de la Silicon Valley.

Les fondateurs qui suivent cette voie y voient un modèle pour s'engager avec des géants comme Musk sans perdre le contrôle de l'orientation à long terme. Ils voient également comment l'IA neuroscientifique peut ancrer un produit distinctif sur un marché de l'innovation en IA très encombré.

  • Positionner la recherche publiquement avec des projets open source comme OpenChat.
  • Utiliser les offres majeures comme une validation et non comme le seul objectif.
  • Ancrer l'histoire de l'entreprise dans une thèse scientifique claire.
  • Recruter autour de "métagos" pour que l'équipe reste alignée sur les ambitions de l'AGI.

Ces choix font de Sapient non pas une extension de fonctionnalité pour une entreprise plus importante, mais un concurrent dans la course à l'intelligence artificielle de nouvelle génération.

Embaucher pour les métagos et l'alignement à long terme

L'une des pratiques distinctives de l'entreprise est l'accent mis sur les métagos lors de l'embauche. Chaque candidat est interrogé sur l'objectif ultime de sa carrière, et pas seulement sur ses compétences et ses titres. Cette approche permet de filtrer les personnes qui veulent penser à l'AGI, à la sécurité et à l'impact à long terme.

LIRE  De la poussière aux centres de données : Comment les titans de l'IA et les milliards de dettes ont commencé à transformer le paysage américain en 2023

Cela est important pour toute startup qui tente de dépasser les modèles OpenAI ou Anthropic, car les incitations à court terme poussent souvent à des démonstrations tape-à-l'œil plutôt qu'à une intelligence fiable.

  • Clarifier les missions personnelles lors des entretiens.
  • Aligner les incitations sur la profondeur de la recherche plutôt que sur la seule vélocité du produit.
  • Encourager un débat sain sur les risques et la gouvernance de l'AGI.
  • Instaurer une culture où il est acceptable de dire non, même à des investisseurs célèbres.

Ce type de stratégie en matière de talents donne à l'équipe une certaine résilience lorsque la pression externe pour une montée en puissance rapide entre en conflit avec la nécessité d'un développement responsable de l'IA en neurosciences.

Pourquoi l'intelligence artificielle de nouvelle génération pourrait-elle émerger de nouvelles architectures ?

Les LLM actuels montrent des limites évidentes en matière de planification, de mémoire à long terme et de raisonnement à plusieurs étapes. L'augmentation des paramètres améliore les performances pendant un certain temps, mais les gains ralentissent et les coûts augmentent fortement. Même OpenAI et Anthropic reconnaissent qu'un plus grand nombre de jetons et des clusters plus grands ne sont pas synonymes d'intelligence générale.

Chen et Wang considèrent qu'il s'agit d'une contrainte structurelle plutôt que d'un inconvénient à court terme. Pour eux, l'intelligence artificielle de la prochaine génération proviendra de nouvelles architectures qui intègrent la planification, la mémoire et le raisonnement comme des composants de premier ordre, et non comme des compléments optionnels.

  • Transformateurs : excellents dans la reconnaissance des formes et la maîtrise du langage.
  • Raisonnement hiérarchique : optimisé pour la décomposition de problèmes complexes.
  • Apprentissage continu : modèles mis à jour en toute sécurité sans recyclage complet.
  • IA inspirée par le cerveau : conceptions influencées par la recherche sur la cognition, et pas seulement par les statistiques.

Ce pari architectural façonne leur feuille de route et explique pourquoi un refus d'Elon Musk a semblé être un échange qui valait la peine d'être fait pour un impact à long terme.

L'apprentissage continu : la prochaine frontière

Les fondateurs considèrent l'apprentissage continu comme une capacité cruciale pour les systèmes de type AGI. Les modèles doivent pouvoir assimiler de nouvelles expériences sans avoir recours à des cycles de recyclage complets qui réinitialisent le comportement et coûtent des millions de dollars en calculs. Ils ont également besoin de garde-fous pour éviter les oublis catastrophiques et les dérives dangereuses.

Les approches d'IA inspirées par le cerveau permettent des mises à jour progressives qui ressemblent à l'apprentissage humain : exposition, retour d'information et intégration progressive dans les structures de connaissances existantes.

  • Mises à jour en ligne à partir de flux de données fraîches sous des contraintes strictes.
  • Filtres de sécurité qui signalent les comportements anormaux avant qu'ils ne se propagent.
  • Des systèmes de mémoire qui conservent les compétences de base tout en en ajoutant de nouvelles.
  • Des boucles d'évaluation qui suivent les schémas de raisonnement au fil du temps.

La maîtrise de l'apprentissage continu permet de transformer l'innovation en matière d'IA en un service d'intelligence stable et évolutif.

Notre avis

L'histoire de deux innovateurs de la génération Z qui ont décliné l'offre de plusieurs millions de dollars d'Elon Musk pour poursuivre leur propre intelligence artificielle inspirée par le cerveau montre comment la conviction dans une thèse technique peut l'emporter sur le prestige à court terme. Leurs travaux sur OpenChat, les modèles de raisonnement hiérarchique et les principes de l'IA neuroscientifique laissent entrevoir un avenir où l'intelligence artificielle de nouvelle génération s'appuiera sur une architecture plus intelligente plutôt que sur l'échelle brute.

Pour les ingénieurs, les cadres et les décideurs politiques, la leçon à tirer est simple. L'IA qui dépassera l'OpenAI et les modèles anthropiques ne dépendra pas seulement de qui possède le plus grand cluster, mais de qui conçoit des systèmes qui pensent avec structure, planifient dans l'incertitude et apprennent continuellement sans perdre le contrôle. Si l'on suit cette trajectoire, la véritable compétition sera centrée sur les équipes qui combineront la rigueur scientifique avec un esprit d'entreprise technologique responsable pour façonner une IA au service des objectifs humains, au lieu de se contenter de poursuivre des critères de référence.

  • Remettre en question le culte des paramètres et se concentrer sur la profondeur du raisonnement.
  • Suivre la recherche sur l'IA inspirée par le cerveau dans les petits laboratoires et les jeunes entreprises.
  • Investir dans des architectures qui favorisent l'apprentissage continu et la sécurité.
  • Encourager les fondateurs à garder leur indépendance lorsque des offres stratégiques se présentent.