GPT-4 is niet langer meer het beste AI taalmodel. Het is voorbij gestreefd door Claude3 Opus.


Onlangs heeft Anthropic de nieuwste versie van haar taalmodel Claude uitgebracht. Claude 3 komt in de varianten Haiku (klein, snel en goedkoop), Sonnet (gemiddeld) en Opus (langzamer en duurste).

Vooral het grootste model, Opus, is bijzonder omdat het het eerste is dat de koning van de taalmodellen, GPT-4, weet te verslaan.

Chatbot arena

Hoe definieer je of een taalmodel nou beter is dan een ander?

Daar heb je benchmarks voor. Nu zijn benchmarks voor de gek te houden (denk Volskswagen diesel) maar eentje is wel interessant: de LMSYS Chatbot Arena.

Het leuke hiervan is dat bezoekers een vraag/opdracht voor een taalmodel kunnen opstellen en dan twee antwoorden krijgen van twee willekeurige taalmodellen. Er wordt ze daarna gevraagd welke van de twee antwoorden beter was. Op basis van intussen meer dan 500.000 van dit soort beoordelingen wordt de rangorde gemaakt.

Mijn eigen bevindingen

Voor mijzelf is belangrijker dat ik het in de praktijk merk. Ik hou een lijstje bij van prompts die ik in mijn AI projecten tegen kom en waar de AI moeite mee heeft. Als er een nieuw belangrijk taalmodel uitkomt dan check ik een of die nieuwe model wél overweg kan met deze prompts. Hierbij twee voorbeelden die allebei te maken hebben met vertalen:

Ten eerste teksten die uit losse stukjes bestaan. Stel je hebt de tekst

Als je al een account hebt log dan in en zo niet registreer je dan.

Voor de software zijn dit vijf losse tekstjes omdat twee ervan op een knop (of een link) staan.

If you already have an account then log in and if not register you then.

Wat ik dus doe om dit op te lossen: ik voeg deze teksten samen tot één zin met scheidingstekens en en vraag het model dan om dit te vertalen en de scheidingstekens te laten staan.

Vertaal de volgende zin:
Als je al een account hebt || log dan in || en zo niet || registreer || je dan.

GPT-4 gaat hier de mist in Claude weet dit netjes te vertalen met behoud van die 5 stukken:

If you already have an account || login || and if not || register ||.

Tweede voorbeeld

Soms heb je een tekst waar een variabele in staat die niet vertaald moet worden omdat die variabele door de software wordt ingevuld.

Dit is het einde van hoofdstuk {HOOFDSTUKNUMMER}.

dat moet natuurlijk niet vertaald worden naar

This is the end of chapter {CHAPTER NUMBER}.

Maar dat is GPT-4 niet aan zijn verstand te peuteren. Ook hier kan Claude het wel.

Ik ben intussen over naar Claude in al mijn AI opdrachten. Tot de komst van weer een beter model natuurlijk 🙂.

Beschikbaarheid

Helaas Claude bij schrijven van deze post in Nederland alleen nog maar via de API beschikbaar nog niet beschikbaar als chat interface zoals ChatGPT. Dat is even afwachten dus.

Het mooie is wel dat Claude via de API op dit moment nog helemaal gratis is.


Vorige post: Foto’s verbeteren