HP's AI daily - 4 november

Verzonden op 04-11-2025 07:16

Nieuwe benchmark toont realiteit van AI-agenten: slechts 2-3% succes

Scale AI en CAIS publiceren de Remote Labor Index, waaruit blijkt dat de beste AI-agenten slechts 2-3% van echte freelance-opdrachten succesvol afronden, met een opbrengst van $1.810 van de beschikbare $143.991.

Dit is een broodnodige realiteitscheck op de hype rondom autonome AI-werknemers. Voor organisaties betekent dit dat de focus voorlopig moet liggen op AI als copiloot voor specifieke taken, niet op het volledig vervangen van complexe workflows die ambiguïteit en menselijke oordeelsvorming vereisen.

Tegelijkertijd laat een ander recent rapport (van Wharton) zien dat 74% van de bedrijven wél een positieve ROI rapporteert op hun GenAI-investeringen. De waarde zit dus duidelijk in het versterken van menselijke taken, niet in volledige autonomie.

Actie-tip: Vraag leveranciers van 'autonome agenten' niet om een gelikte demo, maar om hun voltooiingspercentage op een set van jouw eigen, reële bedrijfstaken. De resultaten zullen je strategie bepalen.

scale · arxiv

Wharton-rapport: AI-adoptie in stroomversnelling, 74% meet positieve ROI

Het jaarlijkse enterprise AI-rapport van Wharton, gebaseerd op een enquête onder 800 senior beslissers, laat zien dat AI-gebruik en -budgetten significant stijgen en dat de technologie volwassen wordt.

De data toont een duidelijke verschuiving van experiment naar implementatie. Bijna driekwart van de organisaties die de ROI meten, rapporteert positieve resultaten, voornamelijk door productiviteitswinst. Het C-suite eigenaarschap van de AI-strategie is met 16 procentpunten gestegen en 60% van de bedrijven heeft nu een Chief AI Officer aangesteld.

De meest gebruikte tools zijn nog steeds de bekende namen als ChatGPT en Microsoft Copilot. Dit geeft aan dat de adoptie breed is, maar de inzet van op maat gemaakte, diep geïntegreerde modellen nog in de kinderschoenen staat.

upenn

ChatGPT krijgt 'Agent Mode' en kan nu zelf acties uitvoeren in de browser

OpenAI rolt 'Agent Mode' uit voor Plus-, Pro- en Business-gebruikers, waarmee ChatGPT taken kan uitvoeren in OpenAI's eigen Atlas-browser.

Dit is een concrete stap van een taalmodel naar een actieve assistent. De agent kan nu zelfstandig online research doen, producten vergelijken of afspraken inplannen. Voor organisaties opent dit de deur naar het automatiseren van complexere, multi-step processen die een browserinteractie vereisen.

De functionaliteit is voorlopig beperkt tot de Atlas-browser. De betrouwbaarheid en veiligheid van een AI die zelfstandig acties op het web uitvoert, zal in de praktijk moeten blijken voordat je er bedrijfskritische taken aan toevertrouwt.

Actie-tip: Geef de Agent Mode een concrete, afgebakende onderzoekstaak, zoals: "Vergelijk de top 3 CRM-systemen voor een MKB-bedrijf op basis van prijs, features en klantreviews, en presenteer de resultaten in een tabel." Meet hoe de output zich verhoudt tot een handmatige zoekopdracht.

Google-onderzoek laat kleinere modellen beter redeneren

Onderzoekers van Google introduceren Supervised Reinforcement Learning (SRL), een methode die 7B-modellen significant beter laat presteren op complexe redeneertaken, zoals wiskunde.

Dit is relevant voor iedereen die AI-toepassingen bouwt met efficiëntere, kleinere modellen. In plaats van alleen het eindresultaat te belonen, geeft SRL feedback op elke tussenstap in het denkproces. Dit leidde tot een stijging in nauwkeurigheid van 13,3% naar 16,7% op de AIME-wiskundebenchmark, een aanzienlijke sprong voor modellen van deze omvang.

De methode vereist wel 'expert examples' om de tussenstappen te kunnen beoordelen, wat betekent dat de kwaliteit van je trainingsdata nog crucialer wordt om dit soort prestatieverbeteringen te realiseren.

arxiv

Perplexity en Getty Images sluiten licentiedeal na kritiek op datagebruik

AI-zoekmachine Perplexity heeft een meerjarige licentieovereenkomst getekend met Getty Images voor het gebruik van hun beeldmateriaal.

Dit is een belangrijke stap richting legitimiteit voor AI-bedrijven die content van het web gebruiken. Na beschuldigingen van plagiaat en een recente rechtszaak van Reddit, kiest Perplexity nu voor een formele samenwerking met correcte bronvermelding en links naar de originele content. Voor andere AI-ontwikkelaars zet dit de toon: licentiedeals worden de norm om juridische risico's te beperken.

De deal adresseert het gebruik van beelden, maar de bredere discussie over het scrapen van tekstuele content van uitgevers, inclusief content achter betaalmuren, blijft hiermee onopgelost.

techcrunch

Documenten onthullen interne strijd en fusieplannen bij OpenAI

Een 10 uur durende getuigenis van mede-oprichter Ilya Sutskever in de rechtszaak van Elon Musk onthult nieuwe details over de crisis rond het ontslag van Sam Altman in november 2023.

De stukken, waaronder een memo van 52 pagina's, schetsen een beeld van een al een jaar durend plan om Altman te ontslaan wegens een "patroon van oneerlijkheid en manipulatie". De getuigenis onthult ook dat er tijdens de crisis serieuze gesprekken waren over een fusie met concurrent Anthropic, waarbij hun CEO Dario Amodei de leiding zou krijgen.

Dit laat zien hoe dicht de AI-wereld bij een radicaal ander landschap stond. De onthullingen bieden context bij de huidige concurrentiestrijd, nu veel van de sleutelfiguren van toen elkaar bestoken vanuit rivaliserende AI-labs.

courtlistener

← Terug naar overzicht