HP's AI daily - 7 september

Verzonden op 07-09-2025 13:52

Technische tip: Verbeter image search met LLM-samenvattingen

Voor het doorzoekbaar maken van afbeeldingen presteren embeddings van tekstuele samenvattingen significant beter dan de standaard CLIP-embeddings van de afbeelding zelf.

In een testsysteem steeg de 'recall at 5' van 28% naar 75% door deze methode te gebruiken. Door een vision-model een gedetailleerde beschrijving van een afbeelding te laten genereren en díe tekst te embedden, creëer je een rijkere semantische representatie voor je zoekindex.

Deze aanpak voegt wel een extra stap (en dus extra kosten en latency) toe aan je indexeringsproces. De afweging hangt af van hoe cruciaal de zoekprecisie is voor jouw applicatie. Is een simpelere aanpak 'goed genoeg'?

Actie-tip: Neem een subset van 100 afbeeldingen uit je database. Genereer voor elke afbeelding een CLIP-embedding en een beschrijvende samenvatting met een VLM (zoals GPT-4o of Gemini). Embed de samenvatting en vergelijk de zoekresultaten voor 10 test-queries.

Moonshot AI lanceert Kimi-K2-Instruct met 256k context window

Het Chinese Moonshot AI heeft Kimi-K2-Instruct-0905 vrijgegeven, een nieuwe versie van zijn Kimi-K2 model.

Met 1 biljoen parameters en een verdubbeld context window van 256.000 tokens, opent dit model de deur voor complexere taken. Denk aan de analyse van complete codebases of uitgebreide financiële rapporten in één enkele prompt, iets waar de meeste andere modellen nog moeite mee hebben.

Een belangrijke kanttekening: de licentie beperkt vooralsnog commercieel gebruik. De praktische inzetbaarheid in bedrijfsproducten is hierdoor gelimiteerd, ondanks de indrukwekkende specificaties.

Google brengt compact en meertalig embedding-model EmbeddingGemma uit

Google heeft EmbeddingGemma gelanceerd, een nieuw open-weights embedding-model met slechts 308 miljoen parameters.

Het compacte formaat is de grote troef: met minder dan 200MB RAM (met quantisatie) kun je dit model lokaal of on-device draaien voor taken als semantic search en RAG. Het model is getraind in meer dan 100 talen, wat het een interessant alternatief maakt voor meertalige toepassingen zonder afhankelijkheid van een API.

De Gemma-licentie is echter niet volledig open-source en bevat gebruiksrestricties. Dit blijft een belangrijke overweging voor commerciële projecten.

Actie-tip: Test EmbeddingGemma voor je volgende RAG-prototype. Vergelijk de performance en resource-kosten met een groter model of een API-dienst voor een specifieke set documenten in het Nederlands.

Gids: Kies het juiste AI-model voor elke afbeeldingstaak

Welk AI-model gebruik je voor welk type afbeelding? Een recente analyse zet de sterke en zwakke punten van de belangrijkste beeldgenerators op een rij.

Midjourney excelleert in artistieke, smaakvolle output maar is lastig te sturen en kan slecht overweg met tekst. Gemini (via de Nano-Banana feature) blinkt juist uit in het snel bewerken van bestaande foto's. ChatGPT is een goede allrounder die creativiteit en controle combineert, terwijl Ideogram vaak de beste keuze blijft voor afbeeldingen mét correcte tekst.

De ontwikkelingen gaan echter razendsnel. Een model dat vandaag de beste is voor een specifieke taak, kan volgende maand alweer ingehaald zijn. Continu testen blijft noodzakelijk.

substack

Google demonstreert AI-stack met 'Androidify' avatar-tool

Google heeft 'Androidify' geïntroduceerd, een tool waarmee je op basis van een selfie of beschrijving een eigen Android-mascotte kunt genereren.

Dit is meer dan een gimmick; het is een publieke showcase van Google's geïntegreerde AI-modellen. Gemini 2.5 Flash analyseert de foto, Imagen genereert de bot en Veo 3 kan deze animeren. Het toont hoe verschillende gespecialiseerde modellen kunnen samenwerken in één consumentenapplicatie.

Hoewel de directe zakelijke toepassing beperkt is, laat het wel de toenemende toegankelijkheid en integratie van creatieve AI-tools zien voor een breed publiek.

blog

← Terug naar overzicht