Что такое байесианская математика

Итак, самое время поговорить о том, по какой математике угорел Юдковский и как она относится к рынкам предсказаний? По байесовской вероятности, которая, согласно знаменитому принципу Арнольда именования математических сущностей, не имеет никакого отношения к преподобному Байесу. Чем вообще Байес занимался? Ничем особо революционным. Его работа «An Essay towards solving a Problem in the Doctrine of Chances» была опубликована в 1763 г. через два года после смерти самого Байеса, но прошла незамеченной, пока в 1812 г. знаменитый Лаплас не изложил современный подход к вероятностям в монументальном томе «Théorie analytique des probabilités». Там же он привел более строгий и современный вариант теоремы. Суть ее довольно проста, теорема Байеса позволяет по свершившемуся событию оценить вероятность того, что оно настало в результате того или иного предшествующего ему события (если, разумеется, мы как-то смогли откуда-то взять априорные, т.е. изначальные вероятности разных предшествующих событий). Канонический пример дан прямо в Википедии и он такой простой, что ни добавить, ни убавить.

Например, мы стоим перед фактом: у нас не завелась машина. Вопрос, что с ней не так? Очевидно, что вероятность того, что машина не заведется, если в ней нет бензина = 100% или 1. А вот дальше начинается та самая непонятная магия — предположим (!) что вероятность того, что случайно встреченная нами машина не заправлена, равна 1% или 0,01. Откуда мы это вывели? А из ниоткуда, теорема Байеса нам ничего об этом не говорит, она работает только с апостериорными (т.е. итоговыми) вероятностями, а откуда берутся априорные (т.е. изначальные) вероятности — ей глубоко пофиг. Запомним этот момент, далее он нам пригодится.

Далее, нам нужна еще одна такая же априорная вероятность — того, что случайно встреченная нами машина не заводится, пусть таковых у нас 2% или вероятность равна 0,02 (да, она тоже дана от балды). Теперь зная эти три числа (1, 0,01 и 0,02) мы уже можем делать осмысленное утверждение: если встреченная нами машина не завелась, то с вероятностью 50% или 0,5 в этом виновато отсутствие бензина!

Строго это подсчитано как раз с помощью формулы Байеса: P(A|B) = P(B|A)P(A)/P(B). У нас А — это гипотеза что кончилось топливо, B — факт, что машина не заводится, P(B|A)=1 вероятность того, что машина не заведется при пустом бензобаке, P(A) — априорная (то есть взятая от балды) вероятность того, что бензобак пуст (ее мы назначили 0,01), а P(B) — априорная вероятность того, что случайно встреченная нами машина отказалась заводится (ее мы назначили 0,02). P(A|B) же это осмысленный вывод — вычисленная нами вероятность того, что случайно встреченная не заводящаяся машина имеет пустой бак.

Пока звучит как что-то не очень крутое, но примеры полезных (в том числе в работе нейросетей) вариантов байесовского выбора вы нагуглите и без меня. Как видите, использование этой формулы упирается в одну большую засаду — мы ничего не знаем об априорных вероятностях, чему они равны? И тут мы сталкиваемся с философской проблемой: а что такое вероятность вообще и что она отражает? Математики признают в целом только одно определение, введенное в 1933 г. гениальным советским математиком Александром Колмогоровым в его фундаментальном труде «Основные понятия теории вероятностей». К сожалению, аксиоматика Колмогорова прекрасно позволяет работать с чистой математикой, но на фундаментальный вопрос (ну так что же такое вероятности по жизни, по-простому, пацанским языком?) так ответа и не дает, потому что математикам (за редкими маргинальными исключениями) на такие вопросы плевать (иначе бы они занимались не математикой, а чем-то другим).

Простых же человеческих интерпретаций вероятностей, обычно, приводят три (в чем-то тут ситуация схожа с квантовой механикой, вся ее математика прекрасно разработана и отлично применяется на практике, вопрос же ее философской интерпретации — предмет бесконечных споров, Юдковский, кстати, и тут вставил свои пять копеек). Согластно историческому и классическому подходу, вероятность — это предельное соотношение, получаемое экспериментально: кинули монету 10, 100, 1000 раз и посчитали число исходов. Если оно крутится около половины — назначаем орлу и решке по 0,5. Все просто.

Это работает во многих случаях, но мало кому нравится, потому что людям хочется пойти глубже и раскопать — а почему это монета так падает? Отсюда появляется т.н. интерпретация «склонности». Некоторые вероятности являются частью нашего мира. Сказать, что монета выпадает решкой в половине случаев — высказать о монете голый факт. У подбрасываемой монеты есть фундаментальная склонность выпадать решкой в 50% случаев. И когда мы говорим, что монета имеет 50% вероятность выпадения решки, мы говорим именно про эту склонность. Интерпретация «склонности» наиболее естественная для человеческой интуиции, ведь многим людям кажется, что случайность — это врожденное свойство монеты, но далее все снова уходит в дебри философии.

Самый же интересный вариант — третий, который, как раз, и называют байесовским, не потому, что он имеет отношение к Байесу, а потому, что что бы использовать его формулу мы должны как-то назначить те самые входные априорные вероятности. Если речь идет о монете, то назначить их довольно просто частотным способом, но очень часто в реальности речь идет о вещах, сбор статистики для которых затруднен или невозможен. Даже с автомобилями, мы не будем ходить по парковке и бить стекла и вламываться в каждую машину, что бы на основе 10000 экспериментов подсчитать, сколько из них не заводятся и почему. Скорее всего, мы обобщим в голове примерно 3 года владения своей машиной и память о том, как она не завелась и, возможно, опыт знакомых автомобилистов. Поэтому я и использовал выше грубую формулировку описания априорных вероятностей — от балды, потому что они строго субъективны и зависят от конкретного человека. Поскольку главное место, где они фигурируют, это теорема Байеса, то в итоге субъективные вероятности стали называть байесовскими. Грубо говоря, это мера вашей личной персональной непонятно откуда взявшейся уверенности в каком-либо факте, а измерить его в числах проще простого. Сколько денег из $100 вы готовы поставить на то, что через 5 минут ваша машина откажется заводится? $1 т.к. обычно она так не шакалит? Вот вам и вероятность в 1%. Вы уже чуете запах рынков предсказаний, верно?

Естественно, между сторонниками частотного и субъективного подходов ведутся многочисленные холивары. О самой возможности назначать вероятности на основе расплывчатого ощущения «задом чую» впервые написал известный математик Франк Рамсей в работе «The Foundations of Mathematics» аж в 1931 г., он же показал, что оно математически непротиворечиво и, в общем-то, удовлетворяет тому, что под вероятностью понимают математики (т.е. работать с ними можно точно также), так что, справедливости ради, назвать бы их следовало рамсеевскими. Колмогоров по этому поводу ничего не сказал, ибо он дал математикам единый интерфейс для работы с самой концепцией вероятности, а что там под капотом с философской точки зрения — для интерфейса абсолютно не важно, хоть бы там демон Максвелла сидел. Статистик Бруно де Финетти в 1937 г. в большой статье «La prévision: ses lois logiques, ses sources subjectives» для уважаемого журнала «Annales de l’Institut Henri Poincaré» развил подход Рамсея и применил его к реальным вычислениям. В конце концов окончательно легализовал такой взгляд в 1954 г. один из самых известных статистиков и экономистов XX в. Леонард Сэвидж (занимался теорией принятия решений и теорией игр в экономике и работал с небезызвестным Фридманом) в книге «The Foundations of Statistics».

Пока все это звучит относительно нормально, но в те же дикие и безбашенные 1950-е, точнее в 1957 г. профессор статистической механики и квантовой физики Эдвин Джейнс написал статью в двух частях «Information theory and statistical mechanics», основав тем самым, т.н. цифровую физику и квантовое байесианство (известное также как QBism). Степень той шизы, в которую это в итоге вылилось, можно оценить, например, тут Квантовый панкомпьютерализм против цифровой физики. Всё из бита или всё из кубита?, к 2003 г. труды Джейнса были посмертно изданы в огромном томе «Probability Theory: The Logic of Science», взорвавшего мозги рационалистам и трансгуманистам (и в т.ч. Юдковскому). Джейнс утверждал, что вероятность — это и не свойство физического мира, но и не просто случайный каприз ума, а мера строгого, логического и неполного знания субъекта о системе при наличии определенного набора данных. В философские аспекты всего этого мы вдаваться, разумеется, не будем, отметим только, что прикладные алгоритмы MCMC (Markov Chain Monte Carlo), которые позволили на практике производить вычисления со сложными байесовскими (ну в смысле рамсеевскими) вероятностями возникли в начале 1990-х (как раз к подоспевшим процессорам уровня Pentium I) и очень быстро стали вполне легитимным и важным инструментом в генетике, астрофизике, лингвистике и криптографии.