Microsoft entwickelt künstliche Intelligenz, die Windows-Programme steuern kann

Thursday 02 January 2025 - 17:00

Microsoft kündigte die Entwicklung eines neuen künstlichen Intelligenzmodells namens „Large Action Model, oder LAM“ an, das sich durch seine Fähigkeit auszeichnet, Windows-Programme auszuführen und Aufgaben unabhängig auszuführen. Dieses Modell stellt einen qualitativen Sprung in Bezug auf künstliche Intelligenz dar. Befehle ausführen.

Im Gegensatz zu herkömmlichen Sprachmodellen wie GPT-4o, deren Funktion auf die Verarbeitung und Generierung von Text beschränkt ist, verfügt das neue LAM-Modell von Microsoft über die Fähigkeit, Benutzeranfragen in echte Aktionen umzuwandeln, bei denen es sich um das Ausführen von Programmen oder die Steuerung von Hardware handelt.

Diese Idee gab es bereits, aber LAM ist das erste Modell, das speziell für die Arbeit mit Microsoft Office-Desktopprodukten und anderen Windows-Anwendungen entwickelt wurde.

Beispiel: Beim Online-Einkauf können herkömmliche Modelle Textanweisungen zum Kauf bereitstellen, während ein LAM-Modell den Kaufvorgang selbst abschließen kann, indem es auf der Website-Oberfläche navigiert.

Laut Microsoft erfordert die Entwicklung dieses Modells vier Hauptschritte: Schulung in der Aufgabenplanung und Aufteilung der Aufgabe in logische Schritte, Erlernen fortgeschrittener Modelle (wie GPT-4o), um Pläne in Aktionen umzusetzen, und Selbsterkundung, die es dem Modell ermöglicht, zu suchen Neue Lösungen finden und Hindernisse überwinden. Andere Modelle schaffen dies nicht, ebenso wenig wie belohnungsbasiertes Training zur Verbesserung der Ausführungsgenauigkeit.

Die Forscher testeten das LAM-Modell in einer Testumgebung für das Textbearbeitungsprogramm „Word“ und erledigten die Aufgaben mit einer Erfolgsquote von 71 % und übertrafen damit GPT-4o, das ohne visuelle Informationen eine Erfolgsquote von 63 % erreichte. Das LAM-Modell war auch schneller: Es benötigte 30 Minuten für die Erledigung der Aufgaben und nur eine Sekunde für die Ausführung der Aufgabe, verglichen mit 86 Sekunden für GPT-4o. Wenn GPT-4o jedoch mit visuellen Informationen gefüttert wurde, verbesserte sich seine Genauigkeit um bis zu 75,5 %.

Das Microsoft-Team stützte sich auf Tausende von Trainingsdaten, die aus Microsoft-Dokumenten, WikiHow-Artikeln und Bing-Suchen gewonnen wurden. Anschließend nutzte das Team das GPT-4o-Modell, um diese Aufgaben auf andere, größere Aufgaben auszudehnen.

Mit dieser Entwicklung steht das LAM-Modell vor einigen Herausforderungen, darunter die fehlerhafte Umsetzung von Maßnahmen, einige organisatorische Probleme, die Lösungen erfordern, und technische Einschränkungen, die sich auf die Skalierbarkeit und Anwendung in verschiedenen Bereichen auswirken.

Die Forscher glauben, dass LAM einen großen Durchbruch auf dem Gebiet der künstlichen Intelligenz darstellt und weisen darauf hin, dass es den Weg für die Entwicklung der künstlichen allgemeinen Intelligenz (AGI) ebnen könnte. Anstelle von Systemen, die lediglich Texte verstehen und produzieren, könnten Unternehmen bald digitale Assistenten anbieten, die tatsächlich dabei helfen, alltägliche Aufgaben effizient zu erledigen.