
GPT-5 kreeg een lauwe ontvangst, maar in mijn praktijk blijkt het juist het sterkste model tot nu toe.
Hier is iets geks: Open AI lanceert een model dat aantoonbaar beter is dan alles daarvoor en toch wordt het heel matig ontvangen.
Aantoonbaar beter? Volgens mijn interne benchmark wel in ieder geval. Ik leg uit hoe ik test en wat ik zie.
Hoe ik test (heel nuchter)
Als AI-consultant kom ik geregeld prompts tegen waar modellen op vastlopen. Die sla ik op in mijn “moeilijke-prompts-archief”.
Bij elk nieuw model draai ik diezelfde set opnieuw en kijk ik of dit model de antwoorden wél goed heeft.
Een paar voorbeelden
1) Hazes-test: wereldbeeld buiten de VS
Vraag: “Wie is die bekende Amsterdamse volkszanger die opgroeide in De Pijp?”
GPT-5 geeft direct het juiste antwoord maar veel andere modellen haperen verrassend genoeg. Wellicht omdat dit te specifiek Nederlands is voor de grotendeels Amerikaanse modellen.
Kleine vraag, grote indicatie: het model kijkt verder dan een puur Amerikaans perspectief.
2) Zoek-de-verschillen
Die klassieker met twee bijna identieke plaatjes.
Waar veel modellen gaan hallucineren en allerlei verschillen gaan opnoemen die er niet zijn, noemt GPT-5 echte verschillen. Nog niet perfect (12/12 haalt het niet), maar duidelijk minder ruis.
3) Vertalen naar het Birmees
Nederlands ↔ Frans? Appeltje-eitje. Maar Birmees (Myanmarees) is andere koek: weinig trainingsdata, lastig lettertype.
De Claude modellen van Anthropic, die ik anders graag gebruik voor vertalingen, haperen hierop. Maar GPT-5 komt wel met een vertaling.
Scores (mijn meetlat)
- 🥇 GPT-5: 50 punten
- 🥈 Gemini-2.5-pro: 48 punten
- 🥉 Grok 3-mini: 37 punten
Het is dus een fotofinish met Gemini. Maar op dit moment komt GPT-5 als winnaar uit de bus.
Waarom dan tóch die lauwe ontvangst?
Mijn hypothese:
- Verwachtingen waren sky-high; de sprong voelt minder “magisch” dan bij eerdere releases.
- Kleine verbeteringen op lastige randen (wereldkennis buiten mainstream, visuele puzzels, low-resource talen) vallen minder op in demo’s, maar zijn goud in de praktijk.
- De meeste reviews testen algemene taken; mijn set is expres lastig en consistent herhaalbaar.
Kanttekeningen (ja, ook die)
- De belangrijkste: GPT-5 is traag. Dat is niet erg als je een losse vraag stelt maar wel als je geautomatiseerd honderden prompts doet. Bijvoorbeeld bij vertaalwerk.
- Nog lang geen 12/12 bij de verschillenpuzzel—er is werk aan de winkel.
- Mijn benchmark blijft groeien; als andere modellen versnellen, kan de koppositie zo weer wisselen.
Conclusie
GPT-5 is in mijn dagelijkse praktijk het beste model tot nu toe—niet omdat het overal magisch is, maar omdat het op moeilijke, diverse cases net wat vaker goed gaat.
Intussen blijf ik moeilijke prompts toevoegen.
Vorige post: Podcast