Sony's Ace verslaat topspelers in tafeltennis, zo heeft de robot dat voor elkaar gekregen

Een robot die een professionele tafeltennisser op zijn eigen terrein verslaat klonk tot voor kort als sciencefiction. In april 2025 gebeurde het toch. Ace, het tafeltennissysteem van Sony AI, won drie van de vijf wedstrijden tegen elitespelers onder de officiële regels van de International Table Tennis Federation. Tegen twee professionele spelers uit de Japanse T.League verloor Ace wel, maar pakte toch één game. De resultaten werden op de cover van Nature gepubliceerd en markeren een mijlpaal in wat onderzoekers physical AI noemen: kunstmatige intelligentie die op menselijke snelheid in de echte wereld handelt.

Wat maakt dit zo bijzonder, en vooral, hoe heeft Sony dit voor elkaar gekregen? De uitdaging is veel groter dan bij schaak, go of virtuele racesimulaties. Tafeltennis dwingt een machine om binnen minder dan een halve seconde te zien, beslissen én bewegen, terwijl de bal met snelheden tot 20 meter per seconde en spins van 1000 radialen per seconde op je afkomt. Hieronder duiken we in de technische lagen die Ace tot een competitieve tegenstander maken.

Waarom tafeltennis de ultieme test is voor een robot

Sinds 1983, het jaar van de allereerste robot ping-pong competitie, proberen onderzoekers een machine te bouwen die kan rallyen met een mens. Decennialang bleven projecten hangen in vereenvoudigde opstellingen: aangepaste rackets, ballenkanonnen in plaats van echte tegenstanders, kleinere speelvelden of regels die spin negeerden. Spin is nochtans cruciaal. De rotatie van de bal bepaalt hoe hij door de lucht kromt, hoe hij stuitert op tafel en hoe hij van het rubber van het racket terugkaatst.

De tijd tussen twee slagen in een high-level game bedraagt vaak minder dan 500 milliseconden. Ter vergelijking: een elite speler heeft ongeveer 230 milliseconden nodig om te reageren. Ace doet het met een end-to-end latency van 20,2 milliseconden. Die cijfers zeggen genoeg over het verschil in schaal waarop machine en mens opereren. Maar snelheid alleen volstaat niet. De robot moet ook de juiste beslissing nemen en fysiek accuraat uitvoeren, zonder de tafel of zichzelf te raken.

De drie pijlers van Ace

Het systeem bestaat uit drie nauw verweven componenten: perceptie, controle en hardware. Elk onderdeel is opnieuw doordacht, want eerdere robottafeltennisprojecten vertrouwden vaak op standaardcamera’s en kant-en-klare robotarmen zonder de hele keten te optimaliseren. Sony koos voor een geïntegreerde aanpak.

Perceptie die beter ziet dan een mens

Ace gebruikt twaalf hoogfrequente sensoren. Negen Sony Pregius IMX273 APS camera’s hangen rond de tafel en leggen beelden vast op 200 Hz. Elke camera bevat een hardware-versnelde FPGA die de bal al ter plaatse detecteert en enkel een gecomprimeerd detectiemasker doorstuurt naar een centrale server. Die server triangule vervolgens de 3D positie van de bal met een gemiddelde fout van slechts 3 millimeter en een latency van 10,2 milliseconden.

Voor spinmeting komen er drie gaze control systems bij. Elk systeem bevat een Sony IMX636 event-based vision sensor, ontwikkeld samen met Prophesee. Deze sensoren werken fundamenteel anders dan klassieke camera’s. In plaats van volledige beelden maken ze enkel melding van veranderingen in helderheid per pixel, met submilliseconde precisie. Gecombineerd met een telelens die automatisch scherpstelt en draaibare spiegels die de bal volgen, kan Ace het logo op de bal zien draaien. Twee algoritmes analyseren die beweging parallel: een convolutional neural network voor lage latency en contrast maximization voor hogere nauwkeurigheid. Samen leveren ze spinmetingen tot 700 Hz met een gemiddelde fout van 24,8 radialen per seconde.

Controle via reinforcement learning

De hersenen van Ace zitten in een reeks policies die getraind zijn met deep reinforcement learning, specifiek met het Soft Actor-Critic algoritme. Alle training gebeurt in simulatie. De robot speelt tegen zichzelf, duizenden uren, en leert zo welke joint bewegingen tot succesvolle returns leiden.

Een cruciale truc is de asymmetric actor-critic architectuur. De critic, het onderdeel dat tijdens training feedback geeft over hoe goed een actie is, krijgt toegang tot de perfecte bal toestand uit de simulator. De actor, de policy die uiteindelijk in de echte wereld moet werken, ziet alleen ruizige sensor metingen. Zo leert het netwerk zelfstandig om sensor data te fuseren en de baan van de bal te anticiperen, zonder dat iemand hem expliciet vertelt hoe. Peter Dürr, projectleider bij Sony AI Zürich, zei dat hij er eerst niet in geloofde. Totdat hij de resultaten zag.

Ace beschikt niet over één policy, maar over een bank van policies die elk gespecialiseerd zijn in een ander type slag, bijvoorbeeld zware topspin, backspin of plaatsing naar een specifiek deel van de tafel. Tijdens een wedstrijd selecteert een sampler welke policy het best past bij de inkomende bal. Die keuze gebeurt op basis van heuristieken, toevalsprincipes of een data-driven model getraind op wedstrijddata van elite spelers.

Hardware die de fysica van snelspel aankan

Een gewone robotarm haalt de vereiste acceleratie niet. Sony ontwierp daarom een maatwerkplatform met acht graden vrijheid: twee prismatische en zes rotatiegewrichten. Dat is precies genoeg om het racket in positie te brengen, de juiste oriëntatie te geven en de slag met de gewenste snelheid en richting uit te voeren.

De maximum eindsnelheid is afgestemd op de openingssnelheid van een professionele drive, rond 20 meter per seconde. De werkruimte beslaat 3,6 bij 3,6 meter, het gebied waarin professionals het gros van hun slagen uitvoeren. Topology optimization werd gebruikt om de robotarmen zo licht mogelijk te maken zonder stijfheid in te boeten. De onderdelen werden geprint in Scalmalloy, een aluminium legering. Alle actuatoren zijn gesynchroniseerd op 1 milliseconde intervallen, en de low-level positiebesturing heeft een tracking delay onder 5 milliseconde, zelfs op maximum snelheid.

Het racket bestaat uit Butterfly Dignics 05 rubbers op een aangepast VICTAS ZX-GEAR OUT blad. Voor de service heeft het eindstuk bovendien een klein bakje om de bal in vast te houden, omdat ITTF regels normaal een tweehandige service vereisen.

De wedstrijden in april 2025

Ace speelde vijf best-of-three wedstrijden tegen elite spelers, allen met meer dan tien jaar intensieve trainingservaring en gemiddeld 20 trainingsuren per week. Daarnaast werden er twee best-of-five wedstrijden gespeeld tegen de professionals Minami Ando en Kakeru Sone uit de Japanse T.League. Geen enkele speler had eerder tegen de robot gespeeld, en Sony gebruikte vooraf geen specifieke data over de tegenstanders om Ace te trainen.

Eindstand: drie overwinningen van Ace tegen elites, met zeven gewonnen games op dertien. Tegen de professionals verloor Ace beide partijen, met slechts één game gewonnen uit zeven. De robot retourneerde consistent ballen tot 14 meter per seconde, met een vergelijkbaar of beter return percentage dan de menselijke spelers. Boven 16 meter per seconde begon het missen, vergelijkbaar met de mens. Bij spin presteerde Ace opvallend goed, met meer dan 75 procent retour rate tot 450 radialen per seconde.

Interessant is dat Ace niet won door hardere slagen te slaan dan zijn tegenstanders. Menselijke spelers haalden punten met uitschieters in snelheid en spin. Ace daarentegen won door consistentie: de verdeling van gewonnen en geretourneerde slagen was statistisch gelijkaardig. De robot slaat ballen ook eerder na de afstuit dan mensen doen, wat zowel voor- als nadelen heeft.

Opmerkelijke momenten

Bij servicebeurten scoorde Ace 16 directe punten tegen elites met vijftien verschillende service types, terwijl de menselijke spelers samen slechts acht keer zo’n ace behaalden. Tegen de professionals was de verhouding vier tegen zeven in het voordeel van de mensen.

Een opvallende situatie die de robuustheid aantoonde: wanneer een bal het net raakte en de baan plots veranderde, paste Ace binnen 49 milliseconden zijn traject aan om toch nog te retourneren. Dit soort zeldzame en moeilijk te modelleren gebeurtenissen werden correct afgehandeld, wat suggereert dat het systeem goed generaliseert.

Kinjiro Nakamura, voormalig olympisch tafeltenisser, zag Ace een unieke backspin intercept uitvoeren die hij onmogelijk achtte. Zijn reactie was veelzeggend: als een robot het kan, kan een mens dit mogelijk ook leren.

Drie niveaus van leren

Volgens Peter Stone, Chief Scientist bij Sony AI, valt Ace’s intelligentie uiteen in drie lagen. De skill laag regelt hoe individuele joints bewegen om spin of kracht te genereren. De tactics laag beslist binnen een rally waar en hoe de bal wordt teruggespeeld. De strategy laag gaat over hoe het spel evolueert over een hele match.

De Nature paper legt de nadruk op skill, want daar zit het gros van het reinforcement learning werk. Tactiek en strategie bieden volgens het team nog ruime verbetermogelijkheden. Modellering van menselijk gedrag en online leren tijdens echte matches zijn logische volgende stappen.

Waarom dit verder reikt dan tafeltennis

Sony kadert Ace als een voortzetting van eerdere mijlpalen in AI: Deep Blue in 1997, AlphaGo in 2016, Sony’s eigen GT Sophy in 2022. Wat Ace anders maakt is de fysieke component. Voor het eerst opereert een leersysteem op expertniveau in een echte sport, met alle onzekerheid van sensoren, latency en mechanische dynamica die daarbij komt kijken.

De technieken achter Ace zijn breder toepasbaar. Low-latency perceptie, reinforcement learning voor realtime controle en zero-shot transfer van simulatie naar werkelijkheid zijn relevant voor productierobotica, service robots, rehabilitatie en elke situatie waar machines snel en veilig met mensen interageren. Jan Peters, hoogleraar intelligente autonome systemen aan TU Darmstadt, noemde het project oprecht indrukwekkend, al benadrukt hij dat andere uitdagingen in robotica, zoals het manipuleren van objecten, hiermee niet opgelost zijn.

Wat nog te verbeteren valt

Ace is nog geen wereldkampioen. Tegen professionals legt het systeem het af. Bepaalde gedragingen komen spontaan uit de training voort maar zijn niet ideaal. Zo slaat Ace consistent vroeger na de afstuit dan menselijke spelers, ook bij slagen die meer ruimte zouden vereisen. Dit beperkt de variatie in shots.

De simulatie-naar-werkelijkheid transfer is ook niet perfect. Bij extreem harde smashes ontdekte het team dat hun fysica model de luchtweerstand overschatte. De bal bleef in werkelijkheid langer in de lucht dan voorspeld. Zulke discrepanties ontdek je pas door tegen sterkere spelers te spelen, die de grenzen van het systeem blootleggen. Sony heeft Ace sinds april 2025 verder verbeterd en verwacht dat nieuwe iteraties zowel harder slaan als menselijker timen.

Een nieuwe vorm van fysieke intelligentie

Wat Ace vooral laat zien is dat intelligentie in het fysieke domein fundamenteel anders werkt dan in symbolische of virtuele taken.

Misschien is dat het meest praktische inzicht voor wie aan physical AI werkt: doorbraken komen niet van één spectaculair algoritme, maar van de bereidheid om tegelijk aan sensoren, hardware, simulatie en leermethodes te sleutelen tot ze samen iets doen wat eerder onmogelijk leek.