Des simulations avancées pourraient un jour nous aider à explorer de nouveaux territoires en physique atomique, à élaborer de nouveaux matériaux et à découvrir de nouveaux médicaments. Mais les chercheurs doivent d’abord trouver les meilleurs moyens de contrôler ces simulations. De nouvelles recherches, qui ont fait la couverture de la revue Nature Machine Intelligence, abordent l’apprentissage automatique comme moyen de réaliser un contrôle optimal.
Pooya Ronagh, professeur-chercheur adjoint à l’IQC ainsi qu’au Département de physique et d’astronomie, a démontré qu’on peut apprendre à un programme d’apprentissage automatique à trouver les meilleures manières de contrôler un système avec lequel il n’a jamais interagi auparavant.
« Lorsque quelqu’un apprend un jeu sur une console Atari, dit-il, il en apprend beaucoup sur la manière de jouer à tous les jeux sur cette console. À l’heure actuelle, les modèles d’apprentissage automatique doivent être entraînés pour chaque jeu séparément. Mais nous aimerions qu’ils soient capables de jouer d’emblée à un autre jeu qu’ils n’ont jamais vu auparavant. » [traduction]
L’équipe de M. Ronagh, qui comprenait Kyle Mills et Isaac Tamblyn, de l’Institut universitaire de technologie de l'Ontario et du Conseil national de recherches du Canada, a simulé des systèmes composés de particules. Elle voulait contrôler le passage de ces systèmes d’une température élevée — haut niveau d’énergie — à une basse température — faible niveau d’énergie —, aussi appelée état fondamental. Plus précisément, l’équipe voulait vérifier si un type d’apprentissage automatique appelé apprentissage par renforcement pouvait trouver la manière optimale de faire baisser la température dans différentes configurations de tels systèmes.
L’apprentissage par renforcement est un type d’apprentissage automatique où un programme apprend, en interagissant avec un système en évolution, comment mieux obtenir un résultat voulu. Les schémas réguliers de contrôle de la température font appel à des formules analytiques. Mais l’équipe s’est rendu compte que l’apprentissage par renforcement permet de trouver des schémas de contrôle de la température qui sont meilleurs tout en étant très irréguliers, en particulier lorsque le système simulé est d’une taille beaucoup plus considérable.
Dans un processus d’essais et erreurs, le programme des chercheurs a fait passer plusieurs fois un système de particules d’une température élevée à une basse température. Après cette période d’entraînement, le programme est parvenu à trouver des schémas de contrôle améliorés sur des systèmes entièrement nouveaux pour lui. La capacité du programme à trouver ces schémas s’adaptait bien à la taille des systèmes. M. Ronagh a déclaré que ce résultat constitue un début prometteur de l’utilisation de l’apprentissage par renforcement pour le contrôle quantique.
« Le but ultime est de construire un bon ordinateur quantique, dit M. Ronagh, et pour cela nous avons besoin de bons qubits. Pour fabriquer de bons qubits, il faut en simuler les propriétés physiques. Il faut pouvoir contrôler l’évolution du système. » [traduction]
Avec ses premiers résultats prometteurs, Pooya Ronagh espère maintenant étendre au monde quantique la technique d’apprentissage par renforcement.
Son équipe a déjà commencé à travailler en ce sens en utilisant des mesures « destructrices ». Pour faire évoluer le système d’une température élevée à une basse température, le programme de contrôle doit mesurer la température du système au cours du processus. Cependant, le fait de mesurer un système quantique altère son évolution. Pour mettre à l’épreuve son programme sur des systèmes quasi quantiques, l’équipe lui a donné instruction de recommencer chaque fois qu’il prenait une mesure, simulant ainsi l’aspect destructeur de la mesure d’un système quantique. L’équipe a quand même obtenu une amélioration de l’adaptabilité du programme, ce qui laisse entendre que l’apprentissage par renforcement pourrait constituer une méthode efficace de contrôle quantique.
Le contrôle quantique n’est pas utile seulement pour les qubits. « À un niveau plus élevé, dit M. Ronagh, de nombreux algorithmes quantiques simulent des évolutions physiques, et la performance de chaque algorithme dépend du choix de ces évolutions. La raison pour laquelle la découverte d’un nouveau médicament coûte si cher, c’est qu’il faut fabriquer une molécule, la tester, puis en essayer une autre si la précédente ne fonctionne pas. Et si on pouvait simuler le médicament et en comprendre les propriétés à l’aide d’un processeur quantique? »
Pour cela, il faudrait exécuter un algorithme qui modélise le comportement physique du médicament. « Cela est en soi une évolution, poursuit M. Ronagh. Je dois pouvoir contrôler cette évolution afin d’obtenir l’état fondamental du médicament, que l’on observe dans la nature. La question est de savoir quelle est la meilleure manière d’obtenir un contrôle quantique optimal. L’apprentissage automatique constitue une possibilité enthousiasmante. » [traduction]
L’article intitulé Finding the ground state of spin Hamiltonians with reinforcement learning (Trouver l’état fondamental de hamiltoniens de spin à l’aide de l’apprentissage par renforcement) a été publié le 7 septembre 2020 dans Nature Machine Intelligence.