바둑 관련 기사와 몬테카를로 트리 탐색(MCTS)

바둑 관련 기사와 몬테카를로 트리 탐색(MCTS)

카테고리 없음 2026. 4. 16. 22:21

https://www.ilemonde.com/news/articleView.html?idxno=22166

지금은 맞고 그때는 틀리다? ― 이세돌식 서사의 불온함(1) - 르몽드 디플로마티크

1. 이세돌의 수상한 자서전2025년 8월 이세돌은 알파고와 대결을 벌인지 9년 8개월 만에 책을 냈다. 자서전에 해당하는 그 책(1)은 체스의 제왕 카스파로프가 딥블루와 대결을 벌인지 20년 만에 발

www.ilemonde.com

"바둑 분석가 데이비드 오메로드는 79~87수 일대의 오류가 몬테카를로 트리 탐색(MCTS) 기반 프로그램에서 전형적으로 나타나는 실수 패턴이라고 분석했다."

https://ko.wikipedia.org/wiki/%EB%AA%AC%ED%85%8C%EC%B9%B4%EB%A5%BC%EB%A1%9C_%ED%8A%B8%EB%A6%AC_%ED%83%90%EC%83%89

경우의 수가 무한에 가까울 때, 어떻게 최적의 수를 찾을 것인가?

바둑처럼 한 수 한 수 둘 때마다 경우의 수가 기하급수로 늘어나는 경우 Bruteforce 불가능

MCTS : 완벽한 전체 탐색을 포기하고 확률에 기반하여 최적에 가까운 답을 내리자 (새로운 탐색 패러다임)

휴리스틱

불확실성을 확률적으로 관리

선택 > 확장 > 시뮬레이션 > 역전파

현재 상태에서 특정 경로를 예측 > 경로 끝에 새로운 탐색지점 만들어봄 > 시뮬레이션으로 잠재가치 평가 > 평가결과를 방문한 노드에 반영 => 경로의 가치를 평가하여 정확도를 높여가기

시뮬레이션: 확장 단계에서부터 게임 종료까지를 빠르게 진행시켜보기 (playout, roleout) 그래서 잠재가치를 평가

역전파 : 시뮬레이션 결과를 상위노드에 전파하여 정보를 업데이트. 이 길로 가보니까 이렇더라. 통계 갱신.

- 정책Policy : 트리 검색의 '폭'을 제한

- 가치Value : 트리 검색의 '깊이'를 제한

Tree Policy : child node를 선택하는 전략

이용-탐사 딜레마 exploitation-exploration dilemma : 당장 승률이 좋은 노드만 계속 선택해서 이용exploitation하지 않고 위험을 무릎쓰고 탐사해볼 필요가 있다.

알파고의 경우 이용과 탐사의 균형을 맞추기 위해 UCT를 사용했다고 함

유리한 경우

1. 바둑처럼 탐색공간이 너무 커서 모든 경우의 수를 다 따져보는 게 거의 불가능

2. 게임의 끝까지 빠르게 시뮬레이션 해볼 수 있는 모델이 필요

3. 100% 정답이 아니라 good enough 솔루션 찾는 것이 목표

4. 시뮬레이션을 돌릴 수 있는 컴퓨팅 자원의 확보

"초반에 오류가 나기는커녕 바둑 인공지능은 초반에 강력하다. 그 이유는, 착점의 가짓수가 많더라도 정책망이 강한 사전분포(prior)를 제공하고 가치망이 일반화된 평점을 주기 때문이다. 또 이 둘이 고급트리탐색 ‘몬테카를로 트리서치(MCTS)’와 결합되어 연산으로 구현된 직관을 실전에서 재현하기 때문이다. 말하자면, 이세돌은 직관을 발휘하는 존재와 바둑을 둔 것이다. (김수광, 2026, 3부)"

AlphaGo의 경우 MCTS에 신경망 2개를 붙임

1. Policy Network : 사람이 둘 법한 수를 확률로 학습, 어떤 노드를 확장할 때 모든 수를 균등하게 탐색하지 않고 정책망을 통해 좋은 수를 더 많이 탐색. 정책망이 준 확률(prior)

2. Value Network : value network로 바로 점수 계산 가능. 이쪽이 rollout 보다 안정적(속도/정확)

정책망이 강한 사전분포

가치망이 일반화된 평점을 줌

> 해당 바둑 인공지능의 특징

몬테카를로 트리 서치(Monte Carlo Tree Search, 이하 MCTS)는 MDP(Markov Decision Process)를 해결하는 방법의 한 종류

출처 : https://gusals1620.tistory.com/3

ABOUT ME

Wookie Mistake Wookie Mistake

티스토리툴바