Microsoft présente ASSERT, un outil de test d'IA pour les développeurs

Les chercheurs et les laboratoires en IA font de grands progrès dans l'évaluation des modèles en matière de sécurité, de conformité et de robustesse. Cependant, les entreprises et les développeurs sont confrontés à de nouveaux défis pour garantir que les systèmes d'IA conçus sur mesure fonctionnent comme prévu. Pour simplifier ce processus, Microsoft a annoncé un nouveau framework open source appelé ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing). C'est ce que rapporte Techcrunch.com rapporte .
Le système ASSERT permet d'évaluer le comportement des modèles d'IA sur la base de descriptions en langage naturel. Le framework analyse les objectifs de haut niveau, les politiques ou les comportements attendus et les traduit en tests systématiques. Cela permet aux développeurs de vérifier automatiquement les scénarios complexes spécifiques à leurs applications et d'évaluer les résultats sur la base de scores.
Cet outil enregistre les chemins empruntés par le système d'IA, y compris les actions intermédiaires et les appels à des outils externes. Cela aide à identifier exactement où les erreurs se produisent. Par exemple, si un agent d'IA travaillant avec des documents ne doit pas envoyer d'e-mails à des personnes extérieures à l'entreprise ou ne doit montrer des informations confidentielles qu'aux gestionnaires, ASSERT vérifie en permanence le respect de ces règles.
Sarah Bird, représentante de Microsoft, souligne que le processus d'évaluation est crucial pour prendre des décisions éclairées. Si le comportement d'un système n'est pas entièrement compris, il est difficile de savoir s'il répond aux exigences de l'organisation. ASSERT est un outil utile non seulement pendant le processus de développement, mais aussi pour une surveillance continue après le déploiement.
Cette nouvelle s'inscrit dans le contexte de changements plus larges dans l'industrie de l'IA. À mesure que les modèles deviennent plus puissants, les chercheurs se concentrent de plus en plus sur les tests itératifs des modèles dans diverses conditions grâce à des projets comme HELM de Stanford ou AILuminate de MLCommons.















Commentaires 0
…