Afgelopen week heeft OpenAI (het bedrijf achter ChatGPT) nieuwe AI modellen uitgebracht. De o1-modellen, waarmee gebruikers voor het eerst de kans kregen om AI modellen te proberen die pauzeren om te “denken” voordat ze antwoorden. Als je het model dus een vraag stelt geeft het eerst een interne redenering voordat het antwoord geeft aan de gebruiker.
Tot nu toe wordt GPT-4o gezien als het beste model van OpenAI. Maar de o1-modellen zijn niet ontworpen om GPT-4o te vervangen.
Hoe werk OpenAI o1?
Het eerste wat opvalt bij interactie met o1 is dat het merkbaar langer duurt om reacties te genereren in vergelijking met GPT-4o. Deze opzettelijke pauze benadruk het vermogen van het model om te kunnen redeneren. O1 besteedt meer tijd aan “denken” voordat het reageert, waardoor het complexe taken kan aanpakken en moeilijkere problemen kan oplossen.
Door het redeneren kan het model de vraag opdelen in verschillende stappen. Zo kan o1 potentiële fouten vroegtijdig identificeren en de kans vergroten om tot de juiste oplossing te komen, net zoals wij mensen minder kans hebben om fouten te maken wanneer we ons denkproces zorgvuldig schetsen.
Het feit dat OpenAI o1 gebruik maakt van redeneringen maakt het vooral effectief op gebieden zoals wiskunde, wetenschap en codering, waarbij het krijgen van een correct antwoord vaak meerdere stappen vereist.
Hoe scoort het nieuwe o1 model📈?
De nieuwe o1-modellen bieden vooruitgang ten opzichte van het GPT-4o model maar hebben ook hun moeilijkheden. Zo doet het o1-model zeer goed in het redeneren van antwoorden op complexe vragen. Zo scoort het bijna altijd hoger in verschillende benchmarks waarbij het zeer goed doet.
Om de verbetering in redeneren ten opzichte van GPT-4o te benadrukken, heeft OpenAI de modellen getest op een diverse set menselijke examens. Deze laten zien dat o1 significant beter presteert dan GPT-4o op de overgrote meerderheid van deze zware redeneertaken. Tenzij anders aangegeven, hebben ze o1 geëvalueerd op de maximale rekentijdinstelling.
Bron: OpenAI
Naast academische benchmarks zocht OpenAI ook menselijke feedback om o1-preview en GPT-4o te vergelijken met een reeks uitdagende, open aanwijzingen voor verschillende domeinen. Menselijke trainers kregen geanonimiseerde reacties van beide modellen en werden gevraagd om hun favoriete te kiezen.
Bron: OpenAI
De resultaten onthullen een duidelijke voorkeur voor o1-preview op gebieden die sterk afhankelijk zijn van redenering, zoals gegevensanalyse, codering en wiskunde. GPT-4o handhaafde echter zijn voorsprong in bepaalde natuurlijke taaltaken, wat suggereert dat o1-preview, hoewel krachtig in redenering, misschien niet de optimale keuze is voor alle toepassingen.
Grote ideeën overdenken
OpenAI o1 is uniek omdat het “denkt” voordat het antwoordt, grote problemen opdeelt in kleine stappen en probeert te identificeren wanneer het een van die stappen goed of fout doet. Dit idee is niet helemaal nieuwe maar het was voorheen nog niet zo praktisch.
Dit biedt grote voordelen bij complexe vragen maar is ook zeker een nadeel als je het model iets simpels wilt vragen. Het model weet niet wanneer het moet stoppen met overdenken. Een journalist vroeg bijvoorbeeld waar je cederbomen in Amerika kunt vinden. Dit leverde een antwoord op van 800 woorden, waarin elke variatie van cederbomen in het land werd beschreven, inclusief hun wetenschappelijke naam.
Het tot nu toe beste model van OpenAI: GPT-4o deed veel beter werk om deze vraag te beantwoorden. Door ongeveer drie zinnen te geven waarin werd uitgelegd dat je de bomen overal in het land kunt vinden.
Use cases
- Wetenschappelijk onderzoek
Onderzoekers in de gezondheidszorg kunnen bijvoorbeeld gebruik maken van o1 om ingewikkelde celsequentiegegevens te annoteren, terwijl natuurkundigen het kunnen gebruiken om de geavanceerde wiskundige formules te genereren die nodig zijn voor kwantumoptica-onderzoek.
- Coderen
Van het voorstellen van code-optimalisaties en het genereren van testcases tot het automatiseren van codebeoordelingen en het faciliteren van kennisdeling, heeft o1 de potentie om de productiviteit van ontwikkelaars aanzienlijk te verbeteren en workflows te vereenvoudigen.
- Wiskunde
Het gebied van de wiskunde zou ook aanzienlijke voordelen kunnen zien van de geavanceerde redeneermogelijkheden van o1. De sterke prestaties op benchmarks zoals AIME suggereren potentiële toepassingen bij het oplossen van complexe vergelijkingen, het bewijzen van stellingen en het verkennen van nieuwe wiskundige concepten, wat zowel studenten als onderzoekers ten goede komt.
De prijs💸
OpenAI o1 is ook uniek prijzig. In de meeste modellen betaal je voor input- en output. Dus eigenlijk alle teksten die je schrijft en alle tekst die je terugkrijgt van het model. O1 voegt echter een verborgen proces toe (de kleine stappen waarin het model grote problemen opsplitst), wat een grote hoeveelheid rekenkracht toevoegt die je nooit volledig ziet. Dit benadrukt wel waarom je voorzichtig moet zijn met het gebruik van OpenAI o1, zodat niet een hoop onverwachte kosten in rekening worden gebracht.
Ook is het model nog niet zo geavanceerd als GPT-4o, zo kan het niet op het web zoeken en kan het ook nog geen bestanden of afbeeldingen verwerken.
De toekomst van de OpenAI O-serie
De introductie van OpenAI o1 markeert niet alleen een nieuw model, maar ook het begin van een nieuwe serie: de OpenAI O-serie. Dit duidt op een opzettelijke verschuiving in de strategische richting van OpenAI en benadrukt complexe redeneermogelijkheden als een kernfocus voor toekomstige AI-ontwikkeling.
Wil je meer leren over hoe je deze nieuwe AI modellen kan gebruiken of hoe je AI toepast in het onderwijs? Bekijk ons workshop aanbod of ons eigen AI-platform.