Inside the AGA Rating System
System Ratingowy AGA (American Go Association)
Szkic z 24.09.1989 r.
1. Wstęp
Pytania o stopnie i rating, kto naprawdę jest silniejszy, jak można jedną część świata porównać z inną, prawdopodobnie nigdy nie znajdą ostatecznej odpowiedzi. Lokalne, narodowe i międzynarodowe tradycje się zmieniają, gracze rozpoczynają i kończą aktywne współzawodnictwo, ogólny poziom wiedzy o Go wzrasta, pojawiają się nowi mistrzowie. Jednak utrzymuje się stale zainteresowanie na temat choćby przybliżonego pomiaru i rozpoznawania siły gry. Podejście AGA polega na publikowaniu ratingów, czyli wyników
numerycznych na ciągłej skali, która może być z grubsza przyrównana do tradycyjnych stopni amatorskich, ale która odzwierciedla wzrosty i spadki siły turniejowej.
W latach 1988-89, system ratingowy AGA uległ gruntownym zmianom. Phil Straus, Paul Matthews, Bob High, Laurie Sweeney, Richard Cann, Bruce Ladendorf, Nick Patterson i inni poświęcili wiele swojego czasu i wiedzy na utworzenie nowego systemu. Choć początkowym celem było skorygowanie logicznych niekonsekwencji, jakie się wkradły do starego systemu, okazało się, że główna praca była skoncentrowana na integralności danych, sposobach przekazywania wyników turniejów, rozwoju oprogramowania komputerowego, a także na wykazaniu, że nowy system jest rzeczywiście sprawny. Niniejszy artykuł rzuca światło na wewnętrzną strukturę nowego systemu.
2. Skala numeryczna
Rating oznacza się na skali od 100 w górę dla graczy dan, oraz od -100 w dół dla graczy kyu. Podział ratingu na jednostki 100 pozwala na ścisłe powiązanie ratingu ze stopniami; tak więc rating 276 oznacza 2 dan, a rating -432 oznacza 4 kyu. Ponieważ nie
ma żadnego stopnia między 1 kyu i 1 dan, nie istnieje żaden rating pomiędzy -100 i 100, co jest czasem kłopotliwe przy prowadzeniu obliczeń ratingowych.
Gdy gracz po raz pierwszy pojawia się w systemie, sam deklaruje swoją sił, która jest następnie przekładana na rating prowizoryczny. Na przykład 6 dan przekłada się na 650, 1 kyu na -150. Rating ulega szybkim korektom, więc nowy gracz znajduje swój właśc
iwy rating po kilku zaledwie turniejach i rating żadnego gracza nie odstaje w istotny sposób od całego systemu.
3. Wiarygodność
Twój rating AGA nie mówi, jaka jest dokładnie Twoja siła. Możesz się jednak dowiedzieć, jaka jest relacja Twojej siły do siły innych graczy, w oparciu o Twoje ostatnie wyniki w turniejach i innych punktowanych wydarzeniach. Twoja opinia na temat własnej
siły opiera się na większej liczbie gier, niż te, które są uwzględniane w systemie ratingowym, i może być bardziej poprawna, szczególnie jeżeli grasz na tym samym poziomie od wielu lat. Jednak jeżeli Twoja ocena różni się znacząco od ratingu AGA, powiedz
my o ponad 200 punktów, wtedy większość graczy będzie zgodna, że musisz to jakoś udowodnić i będzie skłonna dać Ci ku temu szansę! Różnice do 100 punktów mieszczą się w granicach błędu statystycznego, ale jeżeli Twój rating jest stale 100 punktów poniżej
lub powyżej stopnia, jaki sam sobie przyznajesz, powinieneś ponownie oszacować swoją siłę.
Musisz być świadomy, że wielu Twych przeciwników może zawyżać swoją siłę. W turniejach gracze często podają wyższą siłę, aby nabrać doświadczenia. Ale w systemie ratingowym uwzględniania jest ich rzeczywista siła, więc w konsekwencji za swoje zwycięstwa
możesz uzyskać mniej punktów niż powinieneś, a Twoje porażki mogą Cię więcej kosztować. W Stanach Zjednoczonych około jedna trzecia graczy, którzy podają swoją siłę pomiędzy 6 kyu a 3 dan, ma w istocie siłę o jeden lub więcej stopni niższą. Jednak rating
graczy poniżej 6 kyu i powyżej 3 dan jest w dużej mierze zgodny z siłą, jaką Ci gracze podają.
4. Model statystyczny
Model statystyczny jest niezbędny, by uniknąć logicznych niekonsekwencji i by prawidłowo wykonywać obliczenia ratingowe. Podobnie jak system Elo używany w międzynarodowych szachach, model AGA wyraża prawdopodobieństwo wygrania partii w funkcji różnicy ra
tingów. Jest to tzw. krzywa "procentowej wartości oczekiwanej", PX, reprezentowanej przez funkcję rozkładu normalnego z odchyleniem standardowym px_sigma. Wychodząc z tego założenia można wywieść prawdopodobne różnice ratingowe w oparciu o rzeczywiste wy
niki partii.
Podstawowym problemem teoretycznym jest oszacowanie różnicy ratingów w oparciu o pojedynczą partię, lub o dowolny ciąg partii, gdy jeden z graczy stale wygrywa. Z matematycznego punktu widzenia, przy założeniu prostego maksimum prawdopodobieństwa, można
by wyciągnąć wniosek, że gracz wygrywający jest nieskończenie silniejszy od gracza przegrywającego. Biorąc pod uwagę, że większość partii rozgrywanych jest przy zbliżonych siłach graczy, taki wniosek jest w sposób oczywisty nieracjonalny. W celu rozwiąza
nia tego problemu system AGA stosuje bayesowskie metody statystyczne. Główna idea polega na określeniu, że gracze najprawdopodobniej mają w przybliżeniu taką siłę, jaką podają. Technicznie przedstawia się to jako funkcję gęstości prawdopodobieństwa rozkł
adu normalnego, określaną jako "a priori rating", RP, z centrum na zakładanym ratingu gracza i z odchyleniem standardowym rp_sigma. Dla jednej partii prawdopodobieństwo bayesowskie przyjmuje postać:
Prawdopodobieństwo(partia) = RP(rating1) RP(rating2) PX(partia | rating1 - rating2)
Wzrost prawdopodobieństwa PX, gdy ratingi dwóch graczy oddalają się od siebie, jest do pewnego stopnia równoważony przez zmniejszenie się prawdopodobieństwa gracza RP, gdy ratingi oddalają się od zakładanej siły gracza; nowe ratingi definiuje się jako pu
nkt równowagi. Wielkość zmiany ratingu jest zdeterminowana przez rp_sigma - większe jej wartości pozwalają na większe zmiany.
Dla wielu gier wartości RP wszystkich graczy oraz wartości PX wszystkich partii mnoży się przez siebie, aby otrzymać całkowite prawdopodobieństwo. Powoduje to powiązanie ratingów wszystkich graczy siecią wzajemnie rozgrywanych partii, co zwiększa stabiln
ość i dokładność ratingów w porównaniu do uaktualniania ratingów po każdej partii. Maksimum prawdopodobieństwa bayesowskiego znajduje się numerycznie przez równoczesne szacowanie wszystkich ratingów aż do znalezienia najlepszego rozwiązania.
5. Parametry systemu
Obecne wartości parametrów systemu ratingowego AGA przedstawione są w Tabeli 1. Wartość px_sigma 104 implikuje, że gracz silniejszy o cały stopień powinien wygrywać około 83% gier; przy różnicy dwóch stopni - około 97%. Wartość px_sigma została ustalona
w oparciu o analizę danych, tak by była zgodna z modelem, w którym równoważnikiem handicapu n kamieni jest 100n punktów ratingowych.
Tabela 1 - Parametry Systemu Ratingowego
px_sigma | 180 |
rp_sigma (wartość domyślna) | 80 |
Punkty ratingowe odpowiadające handicapowi: |
5 punktów komi | 0 |
bez komi | 50 |
6 punktów odwrotnego komi | 100 |
2 kamienie | 200 |
3 kamienie | 300 |
4 kamienie | 400 |
5 kamieni | 500 |
6 kamieni | 600 |
7 kamieni | 700 |
8 kamieni | 800 |
9 kamieni | 900 |
(jigo oznacza wygraną Białych)
Rp_sigma przedstawia niepewność związaną ze starymi ratingami; w praktyce rp_sigma reguluje zmienność ratingów. Obecna wartość 80 została tak wybrana, by średnia wartość jednej partii wynosiła 30 punktów ratingowych, co ogranicza wartość oczekiwaną maksy
malnej wygranej w pięciorundowym turnieju do 150 punktów ratingowych. Symulacje wykazały, że zarówno wysokie, jak i niskie wartości rp_sigma dają gorsze wyniki, powodując duże fluktuacje lub stagnację ratingów.
Wartość punktowa komi jest interesującym zagadnieniem do dalszych badań statystycznych. Aktualnie dostępne dane, z których większość dostarczył Wayne Nelson, sugerują, że jeden punkt komi odpowiada około 10 punktom ratingowym. Tak więc, ponieważ wartość
pierwszego ruchu (czyli gra Czarnymi) wynosi około 50 punktów ratingowych, odwrotne komi 6 punktów powinno mniej więcej skompensować różnicę jednego stopnia.
6. Wzrost siły graczy
Wielu graczy uważa, że ich siła wzrasta, i są rozczarowani, gdy ich rating nie nadąża za ich samooceną. Wartość domyślna rp_sigma wydaje się wystarczająca dla rutynowych przeszacowań ratingu; jednak szybko rozwijający się gracz może grać z siłą o kilkase
t punktów wyższą od swojego starego ratingu, w takim przypadku potrzebne jest przyspieszenie. Obecna metoda, dla graczy deklarujących siłę wyższą o ponad 50 punktów od ich ratingu, polega na następującej modyfikacji parametrów ich funkcji RP:
rr_diff = stopień - rating - 50
RP średnie = rating + 1/2 rr_diff
odchylenie standardowe RP = sqrt(rp_sigma2 + 1/2 rr_diff2)
Dodanie punktów do średniego RP oznacza dodanie punktów do całego systemu, co pomaga w przeciwdziałaniu tendencji do obniżania ratingu stabilnych graczy wraz ze wzrostem siły innych graczy. Większa wartość odchylenia standardowego powoduje, że rating gra
cza rozwijającego się ulega szybszym zmianom i ma mniejszy wpływ na rating jego przeciwników.
7. Ulepszenia modelu
Zgłaszano szereg sugestii mających na celu ulepszenie systemu ratingowego przez dodanie parametrów uwzględniających różnice między graczami. Dwa najczęściej spotykane pomysły, to:
- indywidualne szacowanie rp_sigma, ponieważ niektóre ratingi są dokładniejsze od innych,
- mniejsze wartości rp_sigma i px_sigma dla silniejszych graczy, ponieważ ich siła jest bardziej ustabilizowana.
Oba te pomysły były dokładnie badane, jednak dotychczasowe symulacje i liczne wersje eksperymentalne systemu ratingowego nie dały zadowalających wyników. Typowe niebezpieczeństwo związane z dodawaniem parametrów do systemu statystycznego polega na tym, ż
e wprowadzają szumy, które są uśredniane przez prostszy model, powodując, że system staje się bardziej chaotyczny bez widocznej jego poprawy. Niełatwo jest porzucić przewidywalny i spójny system, ze skalą ratingową pozwalającą na jednolitą interpretację
dla każdego na każdym poziomie.
8. Oprogramowanie
System ratingowy AGA składa się z zestawu programów zaimplementowanych na komputerze osobistym DOS; niezbędne jest 512 KB pamięci i około 3 MB przestrzeni dyskowej, aby system mógł przetwarzać realne ilości danych. Funkcjonalność, prostota i łatwość stos
owania jest stale poprawiana. Dużo wysiłków poświęca się na oprogramowanie wspomagające weryfikację i korektę numerów identyfikacyjnych AGA i nazwisk, najlepiej bezpośrednio w czasie turnieju. Prowadzone są także prace nad wykorzystaniem algorytmów ratin
gowych do ulepszenia rozstawiania graczy w turniejach i nad dostarczaniem dynamicznych odczytów ratingu po każdej rundzie.
9. Wprowadzanie danych
Nowy system ma prostsze i bardziej elastyczne formaty do wprowadzania wyników gier z turniejów, cotygodniowych rozgrywek klubowych i innych imprez. Poniższy przykład przedstawia kompletny plik raportu z klubowych rozgrywek "każdy-z-każdym" czterech gracz
y. Pierwszy wiersz, zaczynający się znakiem #, identyfikuje zdarzenie i powinien zawierać pełną jego nazwę i datę. Dla każdego gracza musi wystąpić jeden wiersz z jego numerem identyfikacyjnym AGA, a następnie nazwisko, przecinek, imiona i siła w imprezi
e. Każdej partii odpowiada jeden wiersz z numerami identyfikacyjnymi Białego i Czarnego, kto wygrał (W albo B) i z handicapem. Ten format odzwierciedla format wydruku raportu stosowany na Kongresie Go USA w 1989 r. i w innych ostatnich turniejach.
# Club Round Robin, March 1989 |
4031 | Smig, Mike | 1D |
3962 | Grog, Sue | 2K |
1023 | Blather, Jim | 3D |
571 | Hipe, Harry | 4K |
4031 | 3962 | W | 2 |
1023 | 571 | W | 6 |
4031 | 571 | W | 4 |
1023 | 3962 | B | 4 |
1023 | 4031 | B | 2 |
3962 | 571 | W | 1 |
10. Dalsze prace
W najbliższej przyszłości będą prowadzone następujące prace:
- oprogramowanie wspomagające weryfikację danych, szczególnie numerów identyfikacyjnych AGA,
- większa integracja oprogramowania rozstawiającego graczy z oprogramowaniem systemu ratingowego,
- porównanie stopni w innych krajach z ratingiem AGA.
Prowadzone prace zmierzają w kierunku wypracowania ogólnoświatowego systemu, który inne kraje będą chciały stosować.
Paul Matthews
Princeton Go Society
Tłumaczył:
Krzysztof Grabowski
|