La IA aprèn a enganyar a Q * bert d’una manera que cap ésser humà no havia fet mai

Una IA ha aconseguit enganyar amb la millor humanitat que pot oferir després de descobrir un exploit en el clàssic joc d'arcade Q * bert i executar-lo.

Tot i que les anteriors iteracions de la IA reproduïen Q * bert correctament, en algun moment de l’aprenentatge de com funciona el joc, descobreix un exploit que li permet acumular punts bojos. Naturalment, com ho faria qualsevol jugador de caça de puntuacions, repeteix el procés per poder augmentar la seva puntuació de la manera més eficaç possible.

Podeu veure la IA treballant al voltant de les plataformes al vídeo següent. Al principi, sembla com si saltés sense plataforma entre plataformes. En lloc de veure com el joc avança a la següent ronda, Q * bert es queda encallat en un bucle on totes les seves plataformes comencen a parpellejar; és aquí on la IA pot continuar amb un frenesí de puntuació acumulant punts enormes.

LLEGIR SEGÜENT: Un dels registres de joc més controvertits ha estat finalment desacreditat

quin tipus de RAM hi ha al meu ordinador

Com va guanyar la IA la guerra de Q * bert

Destruint el rècord històric del títol, la IA va obtenir una puntuació increïblement alta gràcies a la seva programació d’algoritmes d’estratègia d’evolució. Les estratègies d’evolució (ES) difereixen de l’aprenentatge habitual de reforç (RL) que utilitza la IA tradicional ja que es veu més escalable a causa del seu aprenentatge generacional.

Cada bucle d'aprenentatge es coneix com una generació i continua la seva tasca fins que es compleix una condició definida (en aquest cas, una puntuació alta). Amb cada generació successiva, la IA absorbeix el coneixement de la generació anterior i, per tant, és millor assolir el mateix objectiu i superar-lo. Seguiu endavant i acabareu amb una IA que no té rival en la seva tasca. Això és exactament el que va passar aquí amb la puntuació Q * bert.

Esbossat a el paper , publicat la setmana passada per investigadors de la Universitat de Friburg (Alemanya), sembla que l’error no era una quantitat coneguda. De fet, tot i que no els sorprèn massa trobar l’error, és interessant veure com la IA va continuar endavant i va aprendre a explotar-la cada vegada que jugava per maximitzar el seu potencial de puntuació.

LLEGIR SEGÜENT: Aquesta intel·ligència artificial ha estat aprenent a dominar Super Mario Bros.

Els investigadors van explicar que, per trobar l’error, l’agent va haver d’aprendre gairebé a completar el primer nivell; això no es va fer alhora, sinó que va utilitzar moltes petites millores. El Registre . Sospitem que en algun moment de la formació, una de les solucions de descendència es va trobar amb l’error i va obtenir una puntuació molt millor en comparació amb els seus germans, cosa que al seu torn va augmentar la seva contribució a l’actualització: el seu pes era el més alt en la mitjana ponderada. Això va traslladar lentament la solució a l’espai on cada vegada més descendents van començar a trobar-se amb el mateix error.

No sabem les condicions precises en què apareix l’error; és possible que només aparegui si l'agent segueix un patró que sembla poc òptim, [per exemple, quan l'agent perd el temps o fins i tot perd la vida]. Si aquest fos el cas, seria extremadament difícil per a RL estàndard trobar l’error: si utilitzeu recompenses incrementals, aprendreu estratègies que donen ràpidament alguna recompensa, en lloc d’estratègies d’aprenentatge que no donen moltes recompenses durant un temps i després, de sobte, guanya grans.

Veure relacionat El campió de Dragster, Todd Rogers, acaba de perdre la seva corona després de 35 anys Aquesta intel·ligència artificial ha estat aprenent a dominar Super Mario Bros 1-2 durant 17 dies Mira aquesta IA aprendre a conduir a GTA V a Twitch

Tanmateix, malgrat els meravellosos resultats del bot, els investigadors no diuen que aquest sigui un cas per defensar l’aprenentatge ES sobre RL. De fet, tots dos sistemes tenen els seus propis problemes i una combinació dels dos es veu en bona mesura com la millor opció per avançar.

El mateix mètode ES en altres jocs Atari no va produir gairebé els mateixos resultats positius. D’altra banda, RL és responsable de destrossar rècords a l’esquerra, la dreta i el centre, inclosa la superació del millor jugador GO del món. ES encara té el seu propi lloc en les coses, i és en realitat com Nvidia realitza una gran part de la seva formació en IA, ja que requereix més potència computacional però aconsegueix millors resultats en un període de temps més llarg.

Independentment de quina manera es convertirà en el futur per al desenvolupament de la IA, almenys aquest bot enganyant el sistema no és tan dolent com aquest ara deshonrat campió del món de videojocs .

**La IA aprèn a enganyar a Q * bert d’una manera que cap ésser humà no havia fet mai**

Com va guanyar la IA la guerra de Q * bert

Articles D'Interès

Com habilitar Java a Chrome

Com activar 4K al vostre televisor Vizio

L'Elecció De L'Editor

Quantes persones poden veure Netflix alhora?

El nombre de persones que poden veure Netflix alhora està limitat pel vostre pla de compte. Però hi ha una solució per evitar el límit de pantalla de Netflix.

Què significa 'Enviat com a SMS a través del servidor' a Android i com ho solucioneu?

És possible que vegeu Enviat com a SMS a través del servidor a Android quan envieu un missatge RCS a un destinatari el dispositiu del qual no l'admet. Obteniu informació sobre com desactivar el missatge de notificació d'estat de lliurament del servidor Enviat com a SMS a Android.

Com bloquejar la missatgeria directa a Instagram

La funció de missatgeria instantània d'Instagram fa uns quants anys que existeix. La gent utilitza missatges directes o

Com activar AirDrop

Un sistema per a l'intercanvi lliure i segur de fitxers i dades entre dispositius mòbils és l'objectiu permanent de molts debats. El problema rau en equilibrar tres criteris: seguretat, facilitat d’ús i velocitat de transferència. Un dels millors

Fitbit no es carrega: com solucionar-ho

Com es comproven les tarifes RPM del disc dur

Les alarmes s'apaguen quan un telèfon està en silenci?

Descobriu com es comporta l'alarma quan un telèfon Android o iOS es manté en silenci.