Это кажется вам слишком абстрактным? Представим конкретную ситуацию: вы идете за покупками на рынок, где хотите купить продукты подешевле. Вы минуете первого продавца (цены у него явно завышены), обходите второго (у него слишком дорого) и, наконец, останавливаетесь около третьего. У третьего продавца товар гораздо дешевле, чем у двух предыдущих. Но кто поручится, что в конце прохода или, возможно, в соседнем городе цены не окажутся еще ниже? Иначе говоря, понятия «лучшая местная цена» и «глобальный минимум» не всегда означают одно и то же.

На такой случай у специалистов в области вычислительной техники припасен целый арсенал хитроумных приемов. Большинство состоит в том, чтобы ввести в поиск лучших параметров элемент случайности. Идея проста: вместо того чтобы двигаться на рынке по одному-единственному проходу, разумнее выбрать более хаотичный маршрут; вместо того чтобы позволить мячу для гольфа спокойно катиться вниз по склону, следует придать ему ускорение, тем самым уменьшив вероятность того, что он застрянет в ямке. Иногда алгоритмы стохастического поиска пробуют удаленные и частично случайные настройки: если лучшее решение находится в пределах досягаемости, шансы рано или поздно найти его достаточно велики. На практике ввести некоторую степень случайности можно самыми разными способами: задавая или обновляя параметры хаотичным образом, внося разнообразие в порядок примеров, добавляя шум к данным или используя только случайный набор связей. Все это повышает надежность обучения.

Некоторые алгоритмы машинного обучения черпают вдохновение из дарвиновского алгоритма, который управляет эволюцией видов: в ходе оптимизации параметров они вводят мутации ранее обнаруженных решений. Как и в биологии, скорость этих мутаций должна тщательно контролироваться; это позволяет машине исследовать новые решения, не тратя слишком много времени на разного рода «авантюры».

В основе другого алгоритма лежит отжиг – один из видов термической обработки, которым издавна пользовались кузнецы и ремесленники для оптимизации свойств металла. Метод отжига позволяет получить исключительно прочный клинок и состоит в многократном нагревании сплава при постепенно понижающихся температурах. Это повышает вероятность того, что атомы займут правильное положение. Недавно суть этого процесса была успешно перенесена в информатику: алгоритм имитации отжига вносит случайные изменения в параметры при постепенном понижении виртуальной «температуры». Вероятность случайного события высока в начале, а затем начинает снижаться, пока система не достигает оптимальной конфигурации.

Ученые обнаружили, что все эти приемы чрезвычайно эффективны – а значит, не исключено, что в ходе эволюции некоторые из них были «встроены» в наш мозг. Случайный поиск, стохастическое любопытство и зашумленные нейроны – все это играет важную роль в научении у Homo sapiens. И в игре «камень, ножницы, бумага», и в джазовой импровизации, и в анализе возможных решений математической задачи случайность есть один из важнейших компонентов решения. Как мы увидим ниже, всякий раз, когда дети переходят в режим обучения – то есть когда они играют, – они исследуют десятки возможностей, причем зачастую делают это беспорядочно, наобум. Ночью их мозг продолжает жонглировать идеями, пока не натыкается на ту, которая лучше всего объясняет пережитое в течение дня. В третьей части этой книги мы еще вернемся к полуслучайному алгоритму, который отвечает за ненасытное любопытство детей – и тех счастливых взрослых, которым удалось сохранить ум ребенка.