Microsoft stellt ASSERT vor, ein KI-Testtool für Entwickler

KI-Forscher und Labore machen große Fortschritte bei der Bewertung von Modellen hinsichtlich Sicherheit, Konformität und Robustheit. Unternehmen und Entwickler stehen jedoch vor neuen Herausforderungen, um sicherzustellen, dass maßgeschneiderte KI-Systeme wie erwartet funktionieren. Um diesen Prozess zu vereinfachen, hat Microsoft ein neues Open-Source-Framework namens ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) angekündigt. Dies berichtet Techcrunch.com berichtet .
Das ASSERT-System ermöglicht die Bewertung des Verhaltens von KI-Modellen auf Basis natürlichsprachlicher Beschreibungen. Das Framework analysiert übergeordnete Ziele, Richtlinien oder erwartetes Verhalten und übersetzt diese in systematische Tests. Dies ermöglicht es Entwicklern, komplexe Szenarien, die für ihre Anwendungen spezifisch sind, automatisch zu überprüfen und die Ergebnisse anhand von Bewertungen zu beurteilen.
Dieses Tool zeichnet die vom KI-System eingeschlagenen Pfade auf, einschließlich Zwischenaktionen und Aufrufen externer Tools. Dies hilft dabei, genau zu erkennen, wo Fehler auftreten. Wenn beispielsweise ein KI-Agent, der mit Dokumenten arbeitet, keine E-Mails an Personen außerhalb des Unternehmens senden oder vertrauliche Informationen nur Führungskräften zeigen darf, überprüft ASSERT kontinuierlich die Einhaltung dieser Regeln.
Sarah Bird, Vertreterin von Microsoft, betont, dass der Bewertungsprozess für fundierte Entscheidungen entscheidend ist. Wenn das Verhalten eines Systems nicht vollständig verstanden wird, ist es schwer zu beurteilen, ob es den Anforderungen der Organisation entspricht. ASSERT ist ein nützliches Werkzeug, nicht nur während der Entwicklung, sondern auch für die kontinuierliche Überwachung nach der Bereitstellung.
Diese Nachricht erfolgt vor dem Hintergrund breiterer Veränderungen in der KI-Branche. Da Modelle immer leistungsfähiger werden, konzentrieren sich Forscher zunehmend auf die iterative Erprobung von Modellen unter verschiedenen Bedingungen durch Projekte wie HELM von Stanford oder AILuminate von MLCommons.















Kommentare 0
…