La nueva AlphaGo está un paso más cerca de la singularidad: aprende de si misma y deja en ridículo a la anterior

AlphaGo

Con sólo un tablero de de Go, el juego más difícil del mundo, y jugando contra sí misma. AlphaGo Zero (el nombre de la nueva versión) ha vapuleado a la antigua AlphaGo por 100 victorias a 0. La inteligencia artificial de Google no sólo bate a cualquier maestro del Go, sino que ahora se supera a si misma, y lo hace sin que ningún humano le enseñe.

A lo largo de la historia de la inteligencia artificial hemos tenido diferentes hitos: Deep Blue derrotando al mejor jugador de ajedrez, Watson de IBM acabando con los mejores jugadores de 'Jeopardy!' o el propio AlphaGo aplastando a Lee Sedol en el Go. Ahora quizás estemos ante otro de esos hitos, pues por primera vez una inteligencia artificial se supera a si misma y lo hace sin la interacción de ningún humano. Un paso más cerca de la singularidad.

Lee Sedol viendo cómo una máquina acababa con él.

Tres días de entrenamiento en solitario para anticiparse a sus movimientos

La primera versión de AlphaGo tuvo la ventaja de aprender de miles de jugadores, tanto aficionados como profesionales. AlphaGo Zero sin embargo no ha tenido acceso a estas partidas, los ingenieros de DeepMind (la empresa de Alphabet a la que pertenece Google) tan sólo le introdujeron las reglas del juego. El Go es un juego fácil de comprender, dos jugadores tienen diferentes piezas (blancas y negras) y cada uno debe tratar de rodear con sus propias piedras un área del tablero mayor que la del oponente. Prácticamente esto es todo lo que AlphaGo Zero necesitó saber.

Durante tres días AlphaGo se entrenó en solitario, jugando contra sí misma y aprendiendo de cada uno de los fallos que realizaba. Primero eran movimientos al azar, y es aquí donde se dio cuenta cuáles eran los caminos o movimientos que la llevaban antes al éxito. AlphaGo Zero poco a poco iba prediciendo sus próximos movimientos combinando simulaciones de jugadas anteriores y las probabilidades de victoria en cada una de ellas. A las tres horas de enchufar la máquina, atrapaba fichas mejor que un principiante del juego. En 70 horas era una experta capaz de jugar contra los mejores del mundo.

Jugadas del Go seguidas por AlphaGo Zero

Las estrategias que sigue AlphaGo Zero y las razones por las que ha llegado a la conclusión de que son las mejores realmente no las conocemos. El deep learning cuenta con la peculiaridad de que no muestra paso a paso las decisiones tomadas. No obstante, las estrategias que sigue son mejores que las seguidas por la primera versión de AlphaGo, la que aprendió de los humanos. Según sus creadores:

AlphaGo Zero puede estar aprendiendo una estrategia que es cualitativamente diferente del juego humano

A diferencia de la primera versión, AlphaGo Zero utiliza una sola red neuronal en lugar de varias redes separadas. De este modo puede hacer movimientos más rápidos ya que tan sólo necesita hacer búsquedas de probabilidades en una sola red. Para hacernos una idea, cada jugada la decidía en 0,4 segundos.

Después de tres días de duro entrenamiento y casi 5 millones de partidas jugadas, AlphaGo Zero estaba lista para jugar contra su antecesora, la AlphaGo Master que ganó a los mejores jugadores del mundo. ¿El resultado? De 100 partidas ganadas la antigua versión gano... cero.

No solamente para jugar al Go

Hasta ahora donde más hemos visto en acción a la inteligencia artificial de Google es jugando al Go. Se trata de un "primer filtro" realmente, debido a que el Go es considerado el juego más difícil del mundo, a la inteligencia artificial le sirve para entrenarse. El tablero es de 19x19 con 361 intersecciones, el número de movimientos y posiciones legales posibles es tan grande que hasta hace poco se pensaba que era infinito.

DeepMind

Aparte de verla jugar al Go, la inteligencia artificial de Google también ha echado partidas al Starcraft II. Pero también ha ayudado a ayudado a que Google se ahorre un dineral en la factura de la luz. O mejor incluso, está luchando contra la ceguera. Demis Hassabis de DeepMind dice lo siguiente: