Microsoft ontwikkelt kunstmatige intelligentie die Windows-programma's kan besturen

Thursday 02 January 2025 - 17:00

Microsoft heeft de ontwikkeling aangekondigd van een nieuw model voor kunstmatige intelligentie genaamd "Large Action Model, of LAM", dat opvalt door zijn vermogen om Windows-programma's uit te voeren en taken onafhankelijk uit te voeren. Dit model betekent een kwalitatieve sprong voorwaarts op het gebied van kunstmatige intelligentie. opdrachten uitvoeren.

In tegenstelling tot traditionele taalmodellen, zoals GPT-4o, waarvan de functie beperkt is tot het verwerken en genereren van tekst, heeft het nieuwe LAM-model van Microsoft de mogelijkheid om gebruikersvragen om te zetten in echte acties, waarbij het gaat om het uitvoeren van programma's of het besturen van hardware.

Dit idee bestond al, maar LAM is het eerste model dat specifiek is opgeleid om te werken met Microsoft Office-desktopproducten en andere Windows-applicaties.

Bijvoorbeeld: bij online winkelen kunnen traditionele modellen tekstinstructies geven over hoe te kopen, terwijl een LAM-model het aankoopproces zelf kan voltooien door door de site-interface op internet te navigeren.

Volgens Microsoft vereist de ontwikkeling van dit model vier hoofdstappen: training in taakplanning en het verdelen van de taak in logische stappen, het leren van geavanceerde modellen (zoals GPT-4o) om plannen om te zetten in acties, en zelfonderzoek waardoor het model kan zoeken nieuwe oplossingen en obstakels overwinnen. Andere modellen slagen er niet in dit te bereiken, evenals op beloningen gebaseerde training om de nauwkeurigheid van de uitvoering te verbeteren.

De onderzoekers testten het LAM-model in een testomgeving voor het tekstbewerkingsprogramma "Word" en voltooiden de taken met succes met een snelheid van 71%, waarmee ze beter presteerden dan GPT-4o, dat een succespercentage van 63% behaalde zonder visuele informatie. Het LAM-model was ook sneller: het kostte 30 minuten om de taken te voltooien en slechts één seconde om de taak uit te voeren, vergeleken met 86 seconden voor GPT-4o. Toen GPT-4o echter visuele informatie kreeg, verbeterde de nauwkeurigheid tot 75,5%.

Het Microsoft-team vertrouwde op duizenden trainingsgegevens uit Microsoft-documenten, wikiHow-artikelen en Bing-zoekopdrachten. Vervolgens gebruikte het team het GPT-4o-model om deze taken uit te breiden naar andere, grotere taken.

Met deze ontwikkeling wordt het LAM-model geconfronteerd met een aantal uitdagingen, waaronder onjuiste implementatie van acties, enkele organisatorische problemen die oplossingen vereisen, en technische beperkingen die de schaalbaarheid en toepassing op verschillende gebieden beïnvloeden.

De onderzoekers zijn van mening dat LAM een grote doorbraak betekent op het gebied van kunstmatige intelligentie, en merken op dat dit de weg zou kunnen vrijmaken voor de ontwikkeling van kunstmatige algemene intelligentie (AGI). In plaats van systemen die eenvoudigweg tekst begrijpen en produceren, zouden bedrijven binnenkort digitale assistenten kunnen aanbieden die daadwerkelijk helpen bij het efficiënt uitvoeren van dagelijkse taken.