Projet de montage d'un stack IA local pour découverte, exploration, évaluation et pourquoi pas, utilisation

Salutations à tous les membres de ce forum.
Ma présence en ces lieux a pour objet de partager mon expérience de l’utilisation de Claude pour tenter de monter un stack logiciel IA local, dans le but d’expérimenter, de découvrir et je l’espère, de produire un outil fonctionnel et ouvert.
J’ai choisi cet espace car mes recherches ont fait remonter que le contenu sur la question disponible dans la langue de Molière est assez pauvre, alors j’ai décidé d’ajouter ma petite pierre.

Mon profil est le suivant : Sysadmin microsoft depuis 25 ans, la dernière fois que j’ai mis les mains dans le monde Unix c’était sur des terminaux X sur serveurs Solaris et tout le monde avait peur du bug de l’an 2000…
Dans ce domaine, mon niveau de compétence est donc voisin de woualou, ou peau d’balle.
Je bidouille pas mal, un peu de tout. Mécanique, électronique, micro-contrôleurs…

C’est donc tout naturellement que mon choix s’est porté sur Ubuntu, sur les conseils de Claude.
Après 2 jours de bricolage et un upgrade vers un forfait Max, histoire de s’amuser un peu, j’avais un stack Ollama avec chat multimodal openwebui, automatic111, searXNG, un proxy swap pour basculer d’un modèle à l’autre et une mécanique fonctionnelle qui semblait tenir la route pour tourner sur mon matériel très limite.

Puisqu’on parle matériel : i7 7700k, asus Z270i mini-itx, 32Go DDR4, Nvidia Titan Xp (Pascal) 12Go, SSD NVMe 1To, HDD 7200T 3To.
C’est un machine de récupération, une borne de démo pro faite pour un salon et mise hors service (Merci windows 11).
Largement insuffisant pour être confortable, il faut ruser. Mais c’est faisable d’y faire tourner des modèles qui semblent intéressants.

Sauf que voilà. C’était inutilisable. Les images générées ne ressemblaient à rien, les capacités de cognition et d’intégration des outils pas très au point ; au final ça ne dépassait le niveau du POC.
Amusant pour jouer avec pendant 1 jours ou 2, mais sans plus.

Le résultat de première intention n’était pas très funky, mais il en a émergé un sous-produit intéressant. J’avais mis en place avec claude un workflow qui me satisfaisait et qui me permettait de prendre en charge tous les arbitrages, tandis que lui me proposait toutes les options envisageables, et en bout de chaîne les mettait en application via claude code, sous supervision partagée avec claude.ai avec un mécanisme de revue, de vérification de non-régression, de benchmarks et de rollback.
Pas le plus économe en tokens et en temps, mais adapté à mon profil newbie linux/ia et d’une très grande robustesse.
Comme les résultats de mon premier essai étaient insatisfaisant, j’ai piloté claude pour qu’il procède à une analyse continue des mécanismes de défaillance connus propres aux petits modèles et aux outils associés, afin d’y apporter méthodiquement des remédiations, avec pour objectif d’étendre au maximum le périmètre opérationnel de ces outils et d’éliminer toutes les défaillances documentées sur le web et constatées sur le projet.

Avec cette démarche j’espère pouvoir me faire une idée précise de ce qu’il est possible de faire avec ces outils, et la conception du stack le rend totalement indépendant des modèles utilisés, limité seulement par le hardware, poussé à ses limites, et je pense, reproductible malgré sa complexité.

Rétrospectivement cela s’est avéré assez ambitieux, mais j’ai été tellement impressionné par les performances de claude, la facilité à le maintenir sur la bonne trajectoire et à l’amener à fournir les bonnes informations puis à construire l’intégralité des livrables et de la documentation avec un niveau de complexité que j’arrive tout juste à appréhender ; que sur le moment je me suis dit : Allons-y !
En + j’avais payé pour 1 mois de Max, alors… Je me suis dit que j’allais essayer de faire construire à Claude son (tout) petit frère.

Je lui ai alors décrit ce que je voulais bâtir, il a recherché toutes les options possibles et j’ai arbitré, question après question.

Le projet s’adapte à la réalité opérationnelle, mais la projection actuelle est celle-la :

J’en suis encore à la construction. Goose est en cours d’évaluation dans différentes configurations d’utilisation pour cerner son périmètre opérationnel favorable.