Principal Serveis De Transmissió La IA aprèn a enganyar a Q * bert d’una manera que cap ésser humà no havia fet mai

La IA aprèn a enganyar a Q * bert d’una manera que cap ésser humà no havia fet mai



Una IA ha aconseguit enganyar amb la millor humanitat que pot oferir després de descobrir un exploit en el clàssic joc d'arcade Q * bert i executar-lo.

Tot i que les anteriors iteracions de la IA reproduïen Q * bert correctament, en algun moment de l’aprenentatge de com funciona el joc, descobreix un exploit que li permet acumular punts bojos. Naturalment, com ho faria qualsevol jugador de caça de puntuacions, repeteix el procés per poder augmentar la seva puntuació de la manera més eficaç possible.

Podeu veure la IA treballant al voltant de les plataformes al vídeo següent. Al principi, sembla com si saltés sense plataforma entre plataformes. En lloc de veure com el joc avança a la següent ronda, Q * bert es queda encallat en un bucle on totes les seves plataformes comencen a parpellejar; és aquí on la IA pot continuar amb un frenesí de puntuació acumulant punts enormes.

LLEGIR SEGÜENT: Un dels registres de joc més controvertits ha estat finalment desacreditat

quin tipus de RAM hi ha al meu ordinador

Com va guanyar la IA la guerra de Q * bert

Destruint el rècord històric del títol, la IA va obtenir una puntuació increïblement alta gràcies a la seva programació d’algoritmes d’estratègia d’evolució. Les estratègies d’evolució (ES) difereixen de l’aprenentatge habitual de reforç (RL) que utilitza la IA tradicional ja que es veu més escalable a causa del seu aprenentatge generacional.

Cada bucle d'aprenentatge es coneix com una generació i continua la seva tasca fins que es compleix una condició definida (en aquest cas, una puntuació alta). Amb cada generació successiva, la IA absorbeix el coneixement de la generació anterior i, per tant, és millor assolir el mateix objectiu i superar-lo. Seguiu endavant i acabareu amb una IA que no té rival en la seva tasca. Això és exactament el que va passar aquí amb la puntuació Q * bert.

Esbossat a el paper , publicat la setmana passada per investigadors de la Universitat de Friburg (Alemanya), sembla que l’error no era una quantitat coneguda. De fet, tot i que no els sorprèn massa trobar l’error, és interessant veure com la IA va continuar endavant i va aprendre a explotar-la cada vegada que jugava per maximitzar el seu potencial de puntuació.

LLEGIR SEGÜENT: Aquesta intel·ligència artificial ha estat aprenent a dominar Super Mario Bros.

Els investigadors van explicar que, per trobar l’error, l’agent va haver d’aprendre gairebé a completar el primer nivell; això no es va fer alhora, sinó que va utilitzar moltes petites millores. El Registre . Sospitem que en algun moment de la formació, una de les solucions de descendència es va trobar amb l’error i va obtenir una puntuació molt millor en comparació amb els seus germans, cosa que al seu torn va augmentar la seva contribució a l’actualització: el seu pes era el més alt en la mitjana ponderada. Això va traslladar lentament la solució a l’espai on cada vegada més descendents van començar a trobar-se amb el mateix error.

No sabem les condicions precises en què apareix l’error; és possible que només aparegui si l'agent segueix un patró que sembla poc òptim, [per exemple, quan l'agent perd el temps o fins i tot perd la vida]. Si aquest fos el cas, seria extremadament difícil per a RL estàndard trobar l’error: si utilitzeu recompenses incrementals, aprendreu estratègies que donen ràpidament alguna recompensa, en lloc d’estratègies d’aprenentatge que no donen moltes recompenses durant un temps i després, de sobte, guanya grans.

Veure relacionat El campió de Dragster, Todd Rogers, acaba de perdre la seva corona després de 35 anys Aquesta intel·ligència artificial ha estat aprenent a dominar Super Mario Bros 1-2 durant 17 dies Mira aquesta IA aprendre a conduir a GTA V a Twitch

Tanmateix, malgrat els meravellosos resultats del bot, els investigadors no diuen que aquest sigui un cas per defensar l’aprenentatge ES sobre RL. De fet, tots dos sistemes tenen els seus propis problemes i una combinació dels dos es veu en bona mesura com la millor opció per avançar.

El mateix mètode ES en altres jocs Atari no va produir gairebé els mateixos resultats positius. D’altra banda, RL és responsable de destrossar rècords a l’esquerra, la dreta i el centre, inclosa la superació del millor jugador GO del món. ES encara té el seu propi lloc en les coses, i és en realitat com Nvidia realitza una gran part de la seva formació en IA, ja que requereix més potència computacional però aconsegueix millors resultats en un període de temps més llarg.

Independentment de quina manera es convertirà en el futur per al desenvolupament de la IA, almenys aquest bot enganyant el sistema no és tan dolent com aquest ara deshonrat campió del món de videojocs .

Articles D'Interès

L'Elecció De L'Editor

Com cercar a través de missatges a Facebook Messenger
Com cercar a través de missatges a Facebook Messenger
Si tens pressa per trobar un missatge, un enllaç o un fitxer a Facebook Messenger, estàs d'enhorabona. No cal desplaçar-se per mesos de converses només per trobar un missatge específic. Facebook Messenger
'Contingut no disponible a la vostra ubicació' per a Netflix, Hulu i molt més: què heu de fer?
'Contingut no disponible a la vostra ubicació' per a Netflix, Hulu i molt més: què heu de fer?
Com pagar en efectiu amb DoorDash
Com pagar en efectiu amb DoorDash
DoorDash és una de les aplicacions de lliurament de menjar sota demanda més grans i populars del mercat. Es van mantenir competitius gràcies a la seva opció de pagament contra lliurament. Aquesta funció va permetre als conductors de DoorDash acceptar comandes que s'abonaran
Els controladors de DoorDash poden veure el vostre número de telèfon?
Els controladors de DoorDash poden veure el vostre número de telèfon?
DoorDash us permet demanar el vostre menjar preferit a una àmplia gamma de restaurants. Rebreu un àpat calent en poc temps i no us haureu de preocupar de cuinar quan no tingueu ganes. No obstant això, a
Com fixar les aplicacions modernes de Store a la barra de tasques de l’actualització 1 de Windows 8.1
Com fixar les aplicacions modernes de Store a la barra de tasques de l’actualització 1 de Windows 8.1
A Windows 8.1 Update 1, un canvi útil a més de mostrar aplicacions a la barra de tasques és la possibilitat de fixar-les. Vegem totes les maneres de fixar aplicacions modernes a la barra de tasques. Advertisment Windows 8.1 Update 1 us permet fixar aplicacions modernes de quatre maneres. Mètode 1: fixeu una aplicació de la botiga moderna al fitxer
Com esborrar vídeos de la tauleta Amazon Fire
Com esborrar vídeos de la tauleta Amazon Fire
La tauleta Amazon Fire és una de les tauletes més utilitzades actualment. Hi ha moltes variants i inclouen diferents capacitats d’emmagatzematge intern, des de 8 GB fins a 64 GB. Si opteu per aquell amb un emmagatzematge més reduït, vosaltres
Com veure qui ha vist el vostre document de Google
Com veure qui ha vist el vostre document de Google
Google Docs és una gran eina per a la col·laboració, ja que permet que diverses persones editin i treballin en un sol document alhora, sense perdre la pista de qui fa què. Si tu o la teva organització utilitza Google