La construction d’une entreprise d’IA sur une « fondation de sable mouvant » est le défi central des fondateurs aujourd’hui, selon la direction de Palona AI. Basée à Palo Alto, cette start-up dirigée par d’anciens vétérans de l’ingénierie de Google et Meta fait aujourd’hui une poussée verticale décisive dans le secteur de la restauration et de l’hôtellerie avec le lancement de Palona Vision et Palona Workflow.
Les nouvelles offres transforment la suite d’agents multimodaux de l’entreprise en un système d’exploitation en temps réel pour les opérations de restaurant, couvrant les caméras, les appels, les conversations et l’exécution coordonnée des tâches.
Ce pivot stratégique marque un changement par rapport aux débuts de l’entreprise en 2025, lorsqu’elle est apparue avec 10 millions de dollars de financement initial pour construire des agents de vente émotionnellement intelligents pour de larges entreprises direct-to-consumer.
En se concentrant désormais sur une approche « multimodale native » pour les restaurants, Palona offre un modèle pour les constructeurs d’IA sur la façon de passer des « enveloppes minces » à la construction de systèmes profonds qui résolvent des problèmes de haut niveau dans le monde physique.
Pour l’utilisateur final – le propriétaire ou l’exploitant de restaurant – la dernière version de Palona est conçue pour fonctionner comme un « meilleur gestionnaire des opérations » automatisé qui ne dort jamais. Palona Vision utilise les caméras de sécurité en magasin pour analyser les signaux opérationnels – tels que les files d’attente, le taux de rotation des tables, les goulots d’étranglement en préparation et la propreté – sans nécessiter de nouveau matériel.
Elle surveille les indicateurs en salle comme les files d’attente, le taux de rotation des tables et la propreté, tout en identifiant simultanément les problèmes en cuisine comme les ralentissements en préparation ou les erreurs de configuration de poste.
Palona Workflow complète cela en automatisant les processus opérationnels multi-étapes. Cela comprend la gestion des commandes de traiteur, les listes de contrôle d’ouverture et de fermeture, et l’accomplissement de la préparation des aliments. En corrélant les signaux vidéo de Vision avec les données de point de vente et les niveaux de personnel, Workflow garantit une exécution cohérente sur plusieurs sites.
Le lancement de Palona Vision représente un passage de la compréhension des mots à la compréhension de la réalité physique d’une cuisine. Alors que de nombreux développeurs peinent à assembler des API séparées, le nouveau modèle vision de Palona transforme les caméras en magasin en assistants opérationnels. Le système identifie les « causes et effets » en temps réel, reconnaissant si une pizza est sous-cuite par sa couleur « beige pâle » ou alertant un manager si une vitrine est vide.
Un des obstacles techniques les plus importants auxquels Palona a été confrontée était la gestion de la mémoire. Dans un contexte de restaurant, la mémoire est la différence entre une interaction frustrante et une interaction « magique » où l’agent se souvient de la commande habituelle d’un client. L’équipe a initialement utilisé un outil open source non spécifié, mais a constaté qu’il produisait des erreurs 30% du temps. Pour résoudre ce problème, Palona a construit Muffin, un système de gestion de la mémoire propriétaire nommé en référence aux « cookies » web. Contrairement aux approches vectorielles standard qui ont du mal avec les données structurées, Muffin est conçu pour gérer quatre couches distinctes : données structurées, dimensions à changement lent, mémoires transitoires et saisonnières, et contexte régional.
En cuisine, une erreur d’IA n’est pas juste une faute de frappe ; c’est une commande gaspillée ou un risque pour la sécurité. Afin d’assurer la fiabilité, Palona a développé une architecture de mémoire personnalisée appelée GRACE. Cette approche permet à l’entreprise d’adapter ses modèles en fonction des performances et des coûts, tout en utilisant une combinaison de modèles propriétaires et open source pour répondre aux besoins spécifiques de l’industrie de la restauration. Un récent incident chez Stefanina’s Pizzeria dans le Missouri, où une IA a halluciné de fausses offres pendant un rush du dîner, met en lumière à quelle vitesse la confiance en une marque peut s’évaporer en l’absence de garde-fous.
Pour éviter un tel chaos, les ingénieurs de Palona suivent son framework interne GRACE :
– Garde-fous : Limites strictes sur le comportement de l’agent pour éviter les promotions non approuvées.
– Red Teaming : Tentatives proactives de « casser » l’IA et d’identifier les déclencheurs potentiels d’hallucinations.
– Sécurité des applications : Verrouillage des API et des intégrations tierces avec TLS, tokenisation et systèmes de prévention des attaques.
– Conformité : Ancrage de chaque réponse dans des données de menu vérifiées et validées pour assurer l’exactitude.
– Escalade : Renvoi des interactions complexes à un responsable humain avant qu’un client ne reçoive des informations erronées.
Cette fiabilité est vérifiée à travers des simulations massives. « Nous avons simulé un million de façons de commander une pizza », a déclaré Zhang, en utilisant une IA pour agir en tant que client et une autre pour prendre la commande, mesurant la précision pour éliminer les hallucinations.
Avec le lancement de Vision et Workflow, Palona parie que l’avenir de l’IA d’entreprise n’est pas dans des assistants généraux, mais dans des « systèmes d’exploitation » spécialisés qui peuvent voir, entendre et penser dans un domaine spécifique.
Contrairement aux agents d’IA à usage général, le système de Palona est conçu pour exécuter des workflows de restaurant, non pas simplement répondre à des requêtes – il est capable de se souvenir des clients, de les entendre commander leur « habituel », et de surveiller les opérations du restaurant pour s’assurer qu’ils livrent la nourriture à ce client selon leurs processus internes et directives, signalant chaque fois que quelque chose ne va pas ou est sur le point de mal tourner.
Pour Zhang, l’objectif est de permettre aux opérateurs humains de se concentrer sur leur métier : « Si vous avez cette délicieuse nourriture maîtrisée… nous vous dirons quoi faire. »


