Eerste testresultaten met gebruikers: Beter dan Mistral in het Nederlands. En het begreep een mompelende geïnterviewde.
Vorige maand lanceerde ik Murmel V1, een Nederlands spraak-naar-tekst model dat volledig gebouwd en gehost wordt in Nederland. Sindsdien heb ik de API, SDK en Studio opengesteld voor gebruikers uit uiteenlopende sectoren zoals de zorg, technologie en de culturele sector.
De feedback was geweldig!
Het begreep "murmelen"
Eén gebruiker deelde iets dat me bijbleef. Ze waren een interview aan het transcriberen waarbij de geïnterviewde aan het mompelen was: niet af en toe, maar gedurende de hele opname. Het soort audio waarvan je ineenkrimpt als je op play drukt.
Murmel had het goed. Natuurlijk impliceert de naam dat het goed is in deze situatie, maar het is geweldig dat het eerste model de belofte aan echte gebruikers al waarmaakt.
Het versloeg Mistral in het Nederlands
Een tweede gebruiker voerde een grondige evaluatie uit voordat ze zich vastlegden op een productie-integratie. Ze bouwden een eigen benchmark, zette Murmel direct tegenover Voxtral van Mistral, en testten ze in hun specifieke use case.
Murmel won met een betere WER-score dan de concurrent! Als groot fan van Mistral was dat erg gaaf om te horen.
Snel genoeg voor echte gesprekken
Nauwkeurigheid is belangrijk. Snelheid ook, vooral als je een ontwikkelaar bent die iets bouwt waarbij een gebruiker daadwerkelijk spreekt en wacht op een reactie.
We merkten dat korte audiofragmenten soms trager werden verwerkt dan ze zouden moeten zijn. Het model zelf was snel, maar de infrastructuur eromheen zorgde voor onnodige vertraging. Daarom was dit de afgelopen week een belangrijk punt van verbetering, en nu worden ook kortere bestanden zeer snel verwerkt.
Om dat te testen, hebben we geëvalueerd op de FLEURS-dataset van Google, een dataset die bestaat uit korte audiofragmenten.
- Character Error Rate: 1.6%
- Word Error Rate: 5.9%
- Gemiddelde end-to-end latency: 1.6s
- Pipeline overhead: 0.99s
- Snelheid op korte fragmenten: ~6× sneller dan real-time
Snel genoeg voor conversationele interfaces. Snel genoeg voor agents. Bij langere audiobestanden is de verwerkingssnelheid op de huidige infrastructuur ~37x sneller dan real-time.
Verwerkt in Nederland
Het doel van Murmel is niet alleen om een optie te zijn die lokaal is gebouwd en gehost, het moet ook een geweldige transcriptie-ervaring bieden. Dus we zijn erg dankbaar voor alle early adopters die ons daarbij helpen!
Nederlandse organisaties zouden niet moeten hoeven kiezen tussen een model dat goed presteert en een model dat ze mogen gebruiken. Murmel biedt het allebei.
Waar we nog aan werken
Uit de eerste feedback van gebruikers kwamen een paar dingen naar voren die we nu actief aan het verbeteren zijn. De toegankelijkheid voor schermlezers kan bijvoorbeeld beter, iets wat we serieus nemen en goed gaan oplossen.
Daarnaast voegt het model soms extra woorden toe wanneer de audiokwaliteit echt slecht wordt – bijvoorbeeld bij veel achtergrondgeluid, sprekers die door elkaar praten of een matige microfoon. Geen verkeerde woorden in plaats van de juiste, maar extra woorden op plekken waar het signaal onduidelijk is, zoals 'eh' of 'ja ja'.
Hoewel dit vaak voorkomt bij STT-modellen, inclusief die van de grootste labs, is het zeker een verbeterpunt voor de volgende versies.
Probeer het vandaag nog, gratis
Er is een gratis tier met 60 minuten transcriptie bij inbegrepen — zonder verplichte creditcard of wachtlijst. Maak een account aan op murmel.eu, upload direct een bestand in de Studio, of haal een API-sleutel op en heb binnen enkele minuten resultaten.
Als je uitgebreider wilt testen, of als je iets bouwt voor productie, neem dan contact op. Ik hoor graag waar je aan werkt.