Исследователи искусственного интеллекта уже давно увлекались (чтобы не сказать – были одержимы) проблемой одновременной локализации и картографирования (simul-taneous localization and mapping, SLAM). Это процесс создания ментальной карты незнакомого здания непосредственно в момент, когда вы перемещаетесь по нему – где находятся двери? а лестницы? обо что тут можно споткнуться? – и отслеживания, в каком месте здания вы находитесь (что позволяет найти путь к выходу). У подавляющего большинства людей процессы SLAM происходят при минимальном участии сознания. Однако научить этому машину было значительно сложнее.
Исследователи много думали о том, какими сенсорами снабдить робота (камерами? лазерами? сонарами?) и каким образом интерпретировать массу данных, которые он передает, однако прогресс в этой работе был достаточно медленным. В одном из обзоров работы в этом направлении, сделанном в 2008 году, утверждалось, что SLAM «представляет собой одну из фундаментальных проблем робототехники… [однако] нам представляется, что почти все нынешние подходы неспособны привести к созданию достаточно точных карт для обширных территорий, в основном из-за увеличения стоимости вычислений и роста уровня погрешности, что в случае расширения сценария делает работу невозможной».[80] Если говорить коротко, то основные проблемы, мешавшие развитию машинного SLAM, заключались в том, что было невозможно быстро собрать данные о достаточно большой территории и немедленно обработать их. Точнее, было невозможно – до тех пор, пока всего через два года после публикации этого обзора на рынке не появился новый гаджет для видеоигр стоимостью 150 долларов.
В ноябре 2010 года Microsoft впервые предложила в качестве дополнения к игровой платформе Xbox сенсорное устройство Kinect, которое могло отслеживать движения двух активных игроков, сканируя при этом движения примерно 20 суставов. Если один игрок становился перед другим, устройство самостоятельно оценивало скрытые от него движения второго игрока и сразу же находило все его суставы, как только он вновь оказывался на виду. Kinect мог также распознавать лица, голоса и жесты в самых разных условиях освещенности и при разном уровне шума. Достигалось это с помощью цифровых сенсоров, внешнего микрофона (способного находить источник звука лучше, чем встроенный микрофон), стандартной видеокамеры и системы глубинного восприятия, умевшей одновременно и излучать, и принимать сигнал в инфракрасном спектре. Несколько встроенных процессоров и огромное количество проприетарных программ позволяли конвертировать данные, поступавшие с этих сенсоров, в информацию, которую могли бы использовать разработчики игр.[81] На момент выхода продукта на рынок все эти возможности были упакованы в устройство высотой 10 см и шириной менее 30 см, которое продавалось в рознице за 149,99 доллара.
В течение 60 дней после выпуска продукта было продано более 8 миллионов устройств Kinect (намного больше, чем айфонов или айпадов). В настоящее время Kinect удерживает рекорд «Книги Гиннеса» как самое быстро продаваемое компьютерное устройство на потребительском рынке.[82] Поначалу семейство Kinect позволяло играть в дартс, заниматься физическими упражнениями, гулять по виртуальным улицам и произносить заклинания на манер Гарри Поттера.[83] Однако система была способна на большее. В августе 2011 года на конференции SIGGRAPH (специальной группы по графическим и интерактивным методам Ассоциации вычислительных устройств) в Ванкувере команда сотрудников