Verzonden op 10-04-2026 07:40
Claude Mythos: te gevaarlijk voor publieke releaseAnthropic heeft een nieuw model gebouwd, Claude Mythos, dat op twee kritieke benchmarks een grote sprong maakt: van 53,4% naar 77,8% op SWE-bench Pro en van 65,4% naar 82% op Terminal-Bench 2.0. Het probleem: het model is bijzonder effectief in het vinden en uitbuiten van softwarekwetsbaarheden. Waar Opus 4.6 slechts 2 werkende Firefox-exploits genereerde uit honderden pogingen, slaagde Mythos er 181 keer in. Het vond ook decennia oude bugs in kritieke software, waaronder een 27 jaar oud lek in OpenBSD. Dit is een update op het eerder gemelde Project Glasswing: Anthropic geeft 12 geselecteerde bedrijven toegang tot een preview-versie, specifiek om kwetsbaarheden in kritieke systemen op te sporen. De investering bedraagt 100 miljoen dollar aan modelgebruikscredits plus 4 miljoen dollar in donaties aan open-source beveiligingsorganisaties. De kanttekening is niet klein: een model dat zo effectief is in het vinden van zero-days, vormt een ernstig risico als het breed beschikbaar zou komen. Dat Anthropic hier bewust voor de rem kiest, is opmerkelijk in een sector waar 'ship it' de norm is. Als je werkt met security-teams: houd de Project Glasswing-deelnemerslijst in de gaten. De kwetsbaarheden die Mythos vindt, worden gedicht — dat is direct relevant voor je eigen softwarestack. |
Meta lanceert Muse Spark van nieuw Superintelligence LabsMeta heeft Muse Spark uitgebracht, het eerste model van de recent opgerichte Meta Superintelligence Labs onder leiding van Alexandr Wang. Volgens Meta is de volledige AI-stack voor dit model opnieuw opgebouwd, inclusief nieuwe infrastructuur, architectuur en datapipelines. Qua prestaties zit Muse Spark ergens tussen Sonnet 4.6 en Opus 4.6 in — dus competitief, maar (nog) geen koploper. API-toegang is aangekondigd maar nog niet beschikbaar. Voor organisaties die meerdere modellen evalueren, is dit een relevante toevoeging aan het speelveld: een nieuw top-lab met een hergebouwde stack kan snel doorontwikkelen. Of dat ook zo gaat, moet de komende maanden blijken. Volg de API-aankondiging en vergelijk Muse Spark zodra beschikbaar op jouw eigen use cases — met name taken waar je nu Sonnet 4.6 inzet.
|
OpenAI Codex bereikt 3 miljoen wekelijkse gebruikersOpenAI's Codex heeft de grens van 3 miljoen wekelijkse gebruikers bereikt. Sam Altman heeft aangekondigd de rate limits te resetten bij elke volgende miljoen gebruikers, tot het systeem 10 miljoen wekelijkse gebruikers bereikt. Dat klinkt als een marketingstunt, maar het signaleert iets concreets: de vraag naar AI-codeeragenten overtreft structureel de beschikbare capaciteit. Voor teams die Codex inzetten voor ontwikkeltaken, betekent dit dat beschikbaarheid en schaalbaarheid reële factoren zijn bij de keuze voor een platform. Wie afhankelijk is van Codex voor productiewerk, doet er goed aan te testen hoe het systeem zich gedraagt onder hoge belasting — en een fallback te hebben.
|
Perplexity lanceert 8-weken startup-competitie met 1 miljoen dollarPerplexity heeft de 'Billion Dollar Build' gelanceerd: een competitie van 8 weken waarbij deelnemers een startup moeten bouwen met behulp van Perplexity's Computer-agent. De winnaar ontvangt 1 miljoen dollar in financiering, mits het concept een realistisch pad heeft naar een waarde van 1 miljard dollar. Dit is relevant voor iedereen die AI-tooling wil verkennen voor het bouwen van nieuwe producten of diensten zonder uitgebreide technische achtergrond. Het is ook een directe demonstratie van hoe Perplexity zijn agent-mogelijkheden in de markt wil positioneren ten opzichte van concurrenten als OpenAI en Anthropic. De drempel is laag genoeg om te verkennen: als je een idee hebt dat je normaal zou laten liggen vanwege gebrek aan technische capaciteit, is dit een concrete gelegenheid om te testen hoe ver je met AI-agenten kunt komen in 8 weken.
|