LoRA, of Low-Rank Adaptation, is een opmerkelijke methode voor het fine-tunen van grote taalmodellen. Het is een een effectieve manier om de werking van deze modellen te veranderen met minimale aanpassingen aan de parameters.


LoRA

In tegenstelling tot traditionele fine-tuning, waarbij een aanzienlijk deel van de parameters van het model wordt aangepast, hanteert LoRA een andere aanpak. Het implementeert low-rank matrices die in reeds getrainde modellen worden ingebracht. Deze matrices zijn ontworpen om de wijzigingen te beperken tot een lage rangorde binnen de parametermatrix, waardoor het aantal direct aangepaste parameters aanzienlijk wordt verminderd. Dit resulteert in minder rekenbelasting en opslagvereisten.

Hoe zit dat met die matrices?

Een AI model bestaat over het algemeen uit lagen van getallen die laag voor laag met elkaar vermenigvuldigd worden; eigenlijk een grote matrix dus.

De 'rang' van een matrix verwijst naar het aantal lineair onafhankelijke rijen of kolommen in de matrix. Dit is een maat voor hoeveel informatie de matrix bevat.

Een 'lage rangorde' betekent dat er relatief weinig lineair onafhankelijke rijen of kolommen zijn. Hierdoor is de matrix eenvoudiger of minder complex. LoRA zoekt naar deze plekken in het model om op die manier met zo weinig mogelijk aanpassingen een zo groot mogelijk effect te bereiken.

Efficiƫntie en Toepasbaarheid

LoRA behoudt de kernkennis van het oorspronkelijke model terwijl het voldoende flexibiliteit biedt voor aanpassingen aan specifieke toepassingen. Dit is vooral voordelig omdat het de integriteit van het vooraf getrainde model waarborgt en tegelijkertijd ruimte biedt voor taakspecifieke tuning.

QLoRA - Geavanceerde Variant

Een veelgebruikte variant van LoRA is QLoRA (Quantized Low-Rank Adaptation), die de low-rank matrices verder optimaliseert door quantisering. Dit vermindert het geheugengebruik en maakt de fine-tuning minder rekenintensief. QLoRA is bijzonder nuttig voor toepassingen waar geheugen- en rekenbronnen beperkt zijn.

Conclusie

Samenvattend, "lage rangorde in de parametermatrix" bij LoRA betekent het gebruik van een vereenvoudigde en efficiƫntere manier om cruciale wijzigingen in een AI-model aan te brengen, zonder het gehele model te hertrainen of te wijzigen.


Vorige post: Reinforcement Learning from Human Feedback (RLHF)