Microsoft presenta ASSERT, una herramienta de prueba de IA para desarrolladores

Los investigadores y laboratorios de IA están logrando grandes avances en la evaluación de modelos en cuanto a seguridad, cumplimiento y robustez. Sin embargo, las empresas y los desarrolladores se enfrentan a nuevos desafíos para garantizar que los sistemas de IA diseñados a medida funcionen como se espera. Para simplificar este proceso, Microsoft ha anunciado un nuevo marco de código abierto llamado ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing). Esto es reportado por Techcrunch.com informa .
El sistema ASSERT permite evaluar el comportamiento de los modelos de IA basándose en descripciones en lenguaje natural. El marco analiza objetivos de alto nivel, políticas o comportamientos esperados y los traduce en pruebas sistemáticas. Esto permite a los desarrolladores verificar automáticamente escenarios complejos específicos de sus aplicaciones y evaluar los resultados basándose en puntuaciones.
Esta herramienta registra las rutas tomadas por el sistema de IA, incluidas las acciones intermedias y las llamadas a herramientas externas. Esto ayuda a identificar exactamente dónde ocurren los errores. Por ejemplo, si un agente de IA que trabaja con documentos no debe enviar correos electrónicos a personas ajenas a la empresa o solo debe mostrar información confidencial a los gerentes, ASSERT verifica continuamente el cumplimiento de estas reglas.
Sarah Bird, representante de Microsoft, enfatiza que el proceso de evaluación es crucial para tomar decisiones informadas. Si el comportamiento de un sistema no se comprende completamente, es difícil saber si cumple con los requisitos de la organización. ASSERT es una herramienta útil no solo durante el proceso de desarrollo, sino también para el monitoreo continuo después de la implementación.
Esta noticia se produce en el contexto de cambios más amplios en la industria de la IA. A medida que los modelos se vuelven más potentes, los investigadores se centran cada vez más en las pruebas iterativas de los modelos en diversas condiciones a través de proyectos como HELM de Stanford o AILuminate de MLCommons.















Comentarios 0
…