Mijlpalen in Spraaktechnologie

  • 1774: Wolfgang Von Kempelen ontwikkelt een mechanisch apparaat dat in staat is om menselijke spraak na te bootsen.
  • 1952: Bell Labs ontwikkelt het Audrey systeem, dat alleen de negen cijfers herkent die door de ontwikkelaar worden uitgesproken met een indrukwekkende nauwkeurigheid van 90%.
  • 1962: IBM demonstreert de Shoebox machine, die 16 Engelse woorden, 10 cijfers en zes rekenkundige commando's kan herkennen.
  • 1971: DARPA (Defense Advanced Research Projects Agency) start het Speech Understanding Research (SUR) programma, wat leidt tot de ontwikkeling van het Harpy systeem door Carnegie Mellon, dat zinnen uit een vocabulaire van 1.011 woorden kan begrijpen. Het Harpy systeem was een van de eersten die gebruik maakte van Hidden Markov Modellen, een probabilistische methode die de ontwikkeling van spraakherkenning in de jaren 80 stimuleerde.


  • 1980: IBM ontwikkelt Tangora, een experimenteel transcriptiesysteem dat 20.000 woorden kan herkennen en typen.
  • 1990: De jaren 90 zien de opkomst van systemen voor continue spraakherkenning met een groot vocabulaire, die natuurlijke spraak uit verschillende domeinen en van verschillende sprekers kunnen transcriberen. De vooruitgang in dit decennium werd mogelijk gemaakt door de beschikbaarheid van grote spraakcorpora, snellere rekenkracht en verbeterde akoestische en taalmodellen. Enkele opmerkelijke systemen die in deze periode werden ontwikkeld, zijn Dragon Dictate, het eerste commerciële product voor spraakherkenning voor persoonlijke computers, en Sphinx-II, het eerste systeem voor continue spraakherkenning met een groot vocabulaire dat onafhankelijk van de spreker is.
  • 1997: IBM's Deep Blue systeem verslaat wereldschaakkampioen Garry Kasparov met behulp van spraakherkenning als onderdeel van zijn mens-computer interface.
  • 2002: SRI International spin-off Nuance Communications brengt Dragon NaturallySpeaking uit, een geavanceerd en gebruiksvriendelijk spraak-naar-tekst software.
  • 2008: Google lanceert zijn voice search service, waardoor spraak-naar-tekst mogelijkheden op mobiele apparaten mogelijk worden.
  • 2011: Apple introduceert Siri, een spraakgestuurde persoonlijke assistent, met de iPhone 4S.
  • 2014: Amazon introduceert Alexa, een virtuele assistent die spraakopdrachten in natuurlijke taal herkent en daarop reageert.
  • 2016: Google kondigt Google Assistant aan, een virtuele assistent aangedreven door kunstmatige intelligentie en machine learning. In hetzelfde jaar behaalt Microsoft menselijke pariteit in gespreksgerichte spraakherkenning.
  • 2017: Baidu, een Chinees multinationaal technologiebedrijf, bereikt een foutpercentage van 3% op spraakherkenning, gelijk aan menselijke prestaties.
  • 2018: OpenAI kondigt de ontwikkeling aan van GPT (Generative Pretrained Transformer), een AI-systeem dat in staat is om menselijke tekst te begrijpen en te genereren op basis van gegeven prompts.
  • 2020: OpenAI brengt GPT-3 uit, een nog krachtiger versie van zijn voorganger.
  • 2021: Google introduceert LaMDA, een taalmodel dat tot doel heeft om meer conversationele en zinvolle antwoorden in chatbots te genereren. In hetzelfde jaar introduceert Google ook het Duplex systeem, dat natuurlijk klinkende telefoontjes kan voeren om afspraken of reserveringen te maken.
  • 2022: OpenAI kondigt GPT-4 aan, een opvolger van GPT-3 met meer geavanceerde taalgeneratiemogelijkheden. In hetzelfde jaar introduceert Facebook wav2vec 2.0, dat spraak kan transcriberen zonder enige tekstuele supervisie.



De Geschiedenis van Spraaktechnologie en Spraakherkenning uitgelegd


Spraakherkenning is tegenwoordig een integraal onderdeel van ons dagelijks leven. Van Siri en Alexa tot spraakgestuurd zoeken op Google, de technologie is alomtegenwoordig geworden. Maar deze ontwikkelingen zijn niet van de ene op de andere dag gebeurd. De geschiedenis van spraaktechnologie en spraakherkenning kent vele belangrijke stappen en mijlpalen, die door verschillende mensen en bedrijven over de hele wereld zijn gerealiseerd.
Vroege dagen


De allereerste stappen in de spraaktechnologie werden genomen door Wolfgang Von Kempelen in 1774, die een mechanisch apparaat ontwikkelde dat in staat was om menselijke spraak na te bootsen. Dit was echter een mechanische benadering van spraak en had niets te maken met het herkennen en begrijpen van menselijke spraak.


De werkelijke geboorte van spraakherkenningstechnologie kan worden getraceerd naar de jaren 1950, toen Bell Labs het Audrey-systeem ontwikkelde. Dit systeem kon de cijfers van één tot negen herkennen met een indrukwekkende nauwkeurigheid van 90%, maar alleen als ze werden uitgesproken door de ontwikkelaar.


De opkomst van computer gebaseerde spraakherkenning


De volgende grote stap in de spraakherkenning kwam met de ontwikkeling van de IBM Shoebox machine in 1962. Dit apparaat kon 16 Engelse woorden, tien cijfers en zes rekenkundige commando's herkennen. Het was een grote sprong voorwaarts, maar de technologie was nog steeds beperkt in zijn capaciteiten.


In de jaren 70 werd de spraakherkenning een prioriteit voor defensie, en DARPA (Defense Advanced Research Projects Agency) lanceerde het Speech Understanding Research (SUR) programma. Een van de producten van dit programma was het Harpy-systeem van Carnegie Mellon, dat zinnen uit een vocabulaire van 1.011 woorden kon begrijpen.


De jaren '80 en '90: grote stappen voorwaarts


In de jaren '80 werd spraakherkenning naar een nieuw niveau getild. IBM ontwikkelde Tangora, een experimenteel transcriptiesysteem dat 20.000 woorden kon herkennen en typen.
In de jaren '90 kwamen de eerste systemen voor continue spraakherkenning met een groot vocabulaire op de markt, die natuurlijke spraak uit verschillende domeinen en van verschillende sprekers konden transcriberen. Deze vooruitgang werd mogelijk gemaakt door de beschikbaarheid van grote spraakcorpora, snellere rekenkracht en verbeterde akoestische en taalmodellen. In deze periode werden opmerkelijke systemen zoals Dragon Dictate en Sphinx-II ontwikkeld.


Het nieuwe millennium: spraakherkenning wordt mainstream


In het begin van het nieuwe millennium werd spraakherkenning meer en meer mainstream. Google lanceerde zijn voice search service in 2008, en Apple introduceerde Siri, een spraakgestuurde persoonlijke assistent, in 2011.Deze periode zag ook een toename in nauwkeurigheid, robuustheid en schaalbaarheid van spraakherkenningstechnologieën. Dit werd bereikt door een combinatie van verbeterde algoritmes, grotere rekenkracht en grotere hoeveelheden trainingsgegevens.


Het huidige decennium: deep learning en big data


Het huidige decennium wordt gekenmerkt door de opkomst van deep learning en big data als de dominante paradigma's voor spraakherkenning onderzoek en ontwikkeling. Deep learning verwijst naar een klasse van kunstmatige neurale netwerkmodellen die complexe patronen kunnen leren uit grote hoeveelheden data. Big data verwijst naar de beschikbaarheid en toegankelijkheid van enorme hoeveelheden spraakdata uit diverse bronnen en domeinen.


Een van de meest recente ontwikkelingen in deze sfeer is Google's Duplex systeem, dat natuurlijk klinkende telefoontjes kan voeren om afspraken of reserveringen te maken. Amazon's Alexa is een ander voorbeeld van geavanceerde spraakherkenningstechnologie, in staat om een breed scala aan spraakopdrachten en -vragen voor slimme huishoudelijke apparaten te verwerken.


Het is duidelijk dat de spraakherkenningstechnologie in de loop der jaren een lange weg heeft afgelegd. Van de eenvoudige spraakherkenningsapparaten van de jaren '50 tot de geavanceerde spraakassistenten van vandaag, deze technologie heeft een revolutionaire vooruitgang doorgemaakt. En met de voortdurende ontwikkelingen in AI en machine learning, kunnen we er zeker van zijn dat de toekomst van spraakherkenningstechnologie nog veel meer in petto heeft.