본문 바로가기

주식재료손질

알파고제로 Alphago Zero 구글딥마인드의 새로운 발전

반응형

 

 

 

 

수천년의 인간 지식이 배워지고 불과 40일만에 세계에서 가장 지적인 컴퓨터에 의해 능가되었습니다. 혁신은 인공 지능 분야에서 가장 진보 된 기술 중 하나입니다. AI 프로그램 인 알파고 AlphaGo가 이세돌 9단을 물리 쳤을 때 구글딥마인드는 작년에 세상을 놀라게했습니다. 알파고 AlphaGo는 수백만 명의 이전 주최자에게 프로그래밍 되었기 때문에 게임 계획을 조정하고 성공 확률을 예측할 수 있었기 때문에 매우 효과적이었습니다.

 

 

 

 

알파고제로는 어떻게 하는지 가르쳐 줬지만 더 이상 지시가 없었습니다. 대신 수백만 게임을 플레이함으로써 시간이 지남에 따라 최고의 움직임을 배웠습니다. 알파고 AlphaGo는 전문가들 사이에서 수천 개의 게임을 연구하고 게임에서 추출한 규칙과 전략을 추출한 다음이 프로그램이 자체적으로 수행 한 수백만 게임에서 게임을 수정했습니다. 그것은 어떤 인간 선수보다 강하게 만드는 것으로 충분했습니다. 그러나 AlphaGo를 만든 딥마인드의 연구원들은 개선 할 수 있다고 확신했습니다. Nature에 발표 된 논문에서 그들은 알파고제로라는 최신 버전을 발표했습니다. 게임을 더 잘 배우고, 게임을 훨씬 빨리 배우며, 컴퓨팅 하드웨어를 적게 사용하십시오. 가장 중요한 점은 원래 버전과 달리 알파고제로는 인적 자원에 의존하지 않고 게임을 가르칠 수 있다는 것입니다.

 

 

 

 

 

 

 

모든 최고의 게임처럼 바둑은 배우기 어렵습니다. 두 플레이어는 보드의 교차점에 19 개의 수직선과 19 개의 수평선이 있는 흑백을 배치했습니다. 목표는 상대방보다 더 많은 영토를 통제하는 것입니다. 상대방에 둘러싸인 돌은 보드에서 제거됩니다. 플레이어는 계속하고 싶지 않을 때까지 계속됩니다. 그런 다음 각각은 보드에있는 돌의 수를 둘러싸는 빈 그리드 교차점의 수를 더합니다. 큰 수가 승자입니다.

 

 

 

 

어려움은 무수한 움직임으로 인한 것입니다. 19x19 보드는 검은 돌을 놓을 수있는 361 개의 다른 장소를 제공합니다. 화이트는 360 가지 옵션을 제공함으로써 대응했습니다. 합법적 인 게시판 배치의 총 수는 10170이며 실제 유사성을 무시하기에는 너무 큽니다

인간은게임을 이해하는 데 중점을 둡니다. 바둑의 간단한 규칙은 많은 창 발적 구조로 이어집니다. 플레이어는 """사다리"와 같은 기능과 "위협""삶과 죽음"과 같은 개념에 대해 이야기합니다. 그러나 인간 플레이어는 이러한 개념을 이해하지만 과도한 방식으로 컴퓨터를 프로그래밍하는 방식으로 설명하기가 훨씬 어렵습니다. 대신 원래의 알파고는 수천 가지 인간 게임 예제를 연구했습니다. 이를 감독 학습이라고 합니다. 인간 놀이는 그러한 개념에 대한 인간의 이해를 반영하기 때문에, 그것에 충분히 노출 된 컴퓨터는 그러한 개념을 이해할 수 있습니다. 알파고가 전술과 전략을 이해할 수 있도록 인간의 전술을 지원 한 후, 그는 발목으로 모든 경기에서 자신의 플레이를 향상시키기 위해 많은 훈련 게임을 시작했습니다.

 

 

 

 

 

 

 

감독 학습은 바둑이외에도 유용합니다. AI의 최근 발전은 컴퓨터가 얼굴을 식별하고 사람들의 목소리를 안정적으로 인식하며 전자 메일 스팸을 효율적으로 필터링하는 데 도움이되는 기본 아이디어입니다. 그러나 딥마인드의 위원장 Demis Hassabis는 감독 학습은 제한적임을 확인했습니다. 그것은 교육 자료의 가용성에 의존하고 그들이 무엇을하려고 하는지 컴퓨터에 보여줍니다. 이 데이터는 전문가가 필터링해야합니다. 예를 들어, 얼굴 인식을 위한 훈련 데이터는 수천 개의 그림으로 구성됩니다. 어떤 사람들에게는 얼굴이 있고 어떤 사람들에게는 얼굴이 없습니다. 따라서 데이터 세트는 저렴하다고 가정합니다. 그리고 종이가 지적했듯이 미묘한 문제가 있을 수 있습니다. 인간 전문가에 의지하여 컴퓨터의 능력에 인간의 한계를 부과 할 위험이 있습니다.

 

 

 

 

알파고제로는 교육 휠 단계를 완전히 건너 뛰고 이러한 모든 문제를 무시하도록 설계되었습니다. 이 프로그램은 게임 규칙과 "보상"기능으로 시작됩니다. 이 기능은 승점을 제공하고 손실 포인트를 부과합니다. 게임의 여러 버전을 반복적으로 실험하고 보상을 최대화하려면 최대한 많은 제약 조건을 반복적으로 실험하는 것이 좋습니다. 이 프로그램은 돌을 무작위로 배치하여 시작되었습니다. 그러나 그것은 빠르게 개선되었습니다. 하루가 지나면 높은 수준의 전문 지식을 얻게됩니다. 이틀 후 위대한 버전을 능가했습니다.

 

 

 

 

 

 

딥마인드의 연구원은 수천 년 동안 축적 된 바둑의 지식을 재발견하는 사람들을 목격했습니다. 때때로 그것은 마치 인간처럼 보였습니다. 3 시간의 훈련 후, 프로그램은 가장 탐욕스러운 초심자를 돌로 만든 돌의 개념에 몰입시킵니다. 그것은 분명히 다른 사람들에게 외계인이었습니다. 예를 들어, 사다리는 플레이어가 상대방 돌 그룹을 잡을 수 있도록 대각선으로 돌로 만들어지는 돌 패턴입니다. 그들은 바둑 게임의 빈번한 특징입니다. 사다리꼴은 인간 초보자가 특정 사다리가 성공했는지 실패했는지 빠르게 볼 수있는 단순하고 반복적 인 패턴입니다. 그러나 알파고제로는 예상보다 오래 걸리는 반 무작위 방식으로 새로운 동작을 외삽 및 실험하지 않았습니다.

 

 

 

 

그럼에도 불구하고 사람들의 힌트에 의존하기보다는 스스로 배우는 것이 큰 이점으로 보였다. 예를 들어, 택시는 보드 가장자리 근처에서 발생하는 잘 알려진 일련의 행동입니다. 알파고제로는 선수들에게 가르친 표준 요청자 키를 발견했습니다. 그러나 그것은 또한 그것을 발명하고 결국 그것을 선호 다른 몇 가지를 발견했다. 알파고 프로젝트 리더 인 David Silver는 컴퓨터가 뚜렷하고 인간이 아닌 스타일을 가진 것처럼 보인다고 말했다.

 

 

 

 

 

 

그 결과는 초인적 인 것이 아니라 압도적입니다. 바둑기술은 Elo 등급으로 정량화 할 수 있습니다. 이것은 과거의 퍼포먼스에 기반한 플레이어가 다른 플레이어를 이길 확률을 제공합니다. 플레이어는 같은 Elo 등급을 가질 확률이 50:50이지만 상대보다 200 % 더 높으면 상대에게 25 %의 확률을 부여합니다. Ke3,661 포인트입니다. Lee3,526 명입니다. 40 일간의 교육 후에 알파고제로 AlphaGo ZeroElo 등급 인 5,000을 초과했습니다. 그는 예리한 아마추어이기 때문에 다른 사람보다 앞서있을 수 없습니다. 인간은 언제나 그것을 물리 칠 수 있습니다. 이 플레이어는 첫 번째 AlphaGo 버전과 대결하여 100 개의 게임에서 0을 얻습니다.

 

 

 

 

물론 삶보다 인생에 더 많은 것이 있습니다. AlphaGo의 다양한 반복을 지원하는 것과 같은 알고리즘은 개념적으로 유사한 다른 작업에 적용될 수 있습니다. (DeepMind는 이미 데이터 센터의 전력 소비를 줄이기 위해 원래의 AlphaGo 기반을 사용했습니다.) 그러나 인간의지도없이 배울 수있는 알고리즘은 사람들이 이해할 수없는 방식으로 기계를 느슨하게 만들 수 있습니다. 그 의미는. 풀다. Hassabis는 지능형 검색의 잠재력은 AlphaGo의 잠재력 때문이라고 설명합니다. 그는 약을 약속하거나 분자 반응을 정확하게 모의 할 수있는 분자를 예측하는 고전적인 문제에 관해 이야기했습니다.

 

 

 

 

인공 지능의 발달은 종종 인간 노화에 대한 불안감을 야기합니다. 딥마인드는 그러한 기계가 검색 엔진에서 종이에 이르기까지 다른 기술을 수행하는 방식으로 그들을 대신하여 생물학적 인 두뇌가 될 수 있기를 희망합니다. 기계 발명품을 보고 문제를 해결하는 새로운 방법은 새로운 생산 경로로 인도할 수 있습니다.

반응형