Управление компьютером силой мысли — давняя и пока что несбыточная мечта. Но шаги в этом направлении делаются, и даже небольшие успехи в разработке нейроинтерфейсов открывают возможности, мощно отдающие киберпанком.
Сегодня мы разберемся, чего наука чтения мыслей достигла на сегодняшний день, и узнаем, как конкретно реализуются неинвазивные методы.
С чего все начиналось
Интерес к изучению мозга техническими методами возник сравнительно недавно — примерно на рубеже XIX и XX веков. В 1920-х годах исследователь Эдгар Эдриан предположил, что нейроны генерируют электрические импульсы и служат базовым элементом куда более сложной структуры. Позже Дональд Хебб разработал (1949) теорию пластичности синаптической передачи и нейронных ансамблей, что перевернуло представление об обязанностях, «закрепленных» за конкретными областями коры головного мозга. Оказалось, что при необходимости нейроны охотно меняют свои функции и нельзя выделить какую-то одну группу, отвечающую, например, за навыки информационной безопасности.
В 1960-х в лаборатории нейронального контроля Национального института здоровья США впервые попытались записать и обработать электрический сигнал с нейронов подопытной обезьяны. Пару десятилетий спустя эта же группа ученых экспериментировала с анализом мозговой деятельности уже в реальном времени, позволяя пациентам зажигать лампочки светового табло «силой мысли». Открывшиеся возможности окрылили исследователей, и варианты прикладных применений не заставили себя долго ждать. Первая научная статья, описывающая успешные эксперименты с «виртуальной клавиатурой» для парализованных людей, вышла в 1999 году (Нилс Бирбаумер).
РЕКОМЕНДУЕМ:
Как с помощью нейронной сети подделать голос
Увы, мыслительные процессы человека оказались устроены гораздо сложнее, чем изначально предполагали ученые. Этим объясняется некоторый спад интереса к нейроинтерфейсам в начале XXI века. Однако история циклична, и сегодня многие проекты буквально переживают второе рождение.
Во-первых, этому способствовал прогресс в аппаратном обеспечении. За последние несколько лет в продаже появились доступные по цене и относительно мало потребляющие аналого-цифровые преобразователи (АЦП), которые можно успешно использовать в задачах оцифровки биологических сигналов. Например, сигма-дельта-АЦП ADS1263 имеет заявленное разрешение 32 бит, уровень собственных шумов порядка 7 нВ, максимальную частоту оцифровки 38,4 кГц и полное входное сопротивление около 1 ГОм. Эти качества позволяют использовать микросхему в системах сбора информации без дополнительных буферных усилителей.
Кроме АЦП, существенно продвинулись по характеристикам инструментальные усилители, входное сопротивление которых приближается к тераомам, а коэффициент усиления составляет десятки тысяч раз. При этом собственные токи утечек и токовый шум не превышают одного пикоампера, что помогает разработчикам проектировать крайне чувствительные схемы съема биопотенциалов.
Из более очевидных вещей: производительность наших компьютеров выросла в десятки раз. Не в последнюю очередь это стало возможным благодаря использованию GPU-, FPGA- и ASIC-микросхем для анализа сигналов в реальном времени. Кроме того, весьма популярная сегодня модель организации вычислений в облаке позволяет компаниям легко арендовать необходимые мощности, концентрируясь на главном.
Во-вторых, вместе с аппаратной частью эволюционировали и возможности нашего программного обеспечения. Появились дружественные к исследователям фреймворки, высокоуровневые языки программирования и многочисленные способы визуализации и классификации информации. Например, сегодня с помощью нейросети можно легко отслеживать возникающие события и корреляцию даже в зашумленных рядах данных.
Ниже на рисунке изображены основные группы алгоритмов, которые используются для поиска особенностей сигнала в реальном времени.
Что касается основного источника информации для интерфейса «мозг — компьютер», то тут особых изменений не произошло. Сегодня наиболее часто используются сигналы с электроэнцефалограмм. Альтернативным способом может быть функциональная магнитно-резонансная томография (fMRI) и магнитоэнцефалография. Однако, как ты понимаешь, разработать компактный томограф практически невозможно, а многомиллионная стоимость готовых аппаратов ограничивает их использование только крупными коллективами в компаниях и институтах.
Нейроинтерфейсы сегодня
Снятие сигналов ЭЭГ, как и любых других малых аналоговых сигналов, — задача весьма непростая: их характеристики нестационарны, они подвержены внешнему шуму и могут влиять друг на друга. Существующие на данный момент проекты клавиатур и прочих устройств ввода предполагают использование внешнего стимула. Возникающий ответный отклик и будет улавливаться сенсорной частью BCI (Brain Computer Interface). Согласись, гораздо проще установить событие, когда ты точно знаешь, когда именно оно должно было произойти.
В общем случае стимулы можно разделить на две основные группы. Event Related Potentials (ERPs) — это сигналы мозга, генерируемые в ответ на ощущаемые или когнитивные события (громкий звук, резкий запах). А Visualy Evoked Potentials (VEPs) — это сигналы, подкрепленные каким-либо визуальным воздействием.
Думаю, проще пояснить на примерах: когда у человека стоит задача выбрать один предмет из многих изображенных, работает принцип ERP. В ответ на нужный стимул с определенной задержкой возникает хорошо регистрируемый системами ЭЭГ однократный сигнал. Если же в область внимания человека попадает мерцающий с определенной интенсивностью графический объект и есть возможность захватить переменный сигнал от электродов на соответствующий частоте — это система VEP.
Наиболее широко используется сегодня метод SSVEP (Steady State VEP). Это такой формат визуальной клавиатуры, в котором каждому элементу соответствует своя уникальная частота мерцания. Пользователь при этом имитирует нажатие кнопки с помощью фокусировки внимания на нужном компоненте интерфейса.
Как правило, активность участков мозга в ЭЭГ принято делить по наблюдаемой частоте (в герцах): дельта ( f <= 4), тета ( 4 < f <= 8), альфа ( 8 < f <= 12), бета ( 12 < f <= 30) и гамма ( f > 30). Для анализа сигналов человеческой моторики (в том числе движений пальцев при наборе на клавиатуре) используется в основном анализ альфа- и бета-активности.
Впрочем, не все так просто. Качество снимаемых электроэнцефалограмм сильно зависит от множества сторонних факторов, вплоть до состояния здоровья и текущего настроения человека. Поэтому многие реально существующие системы часто не только подгоняют под конкретного пользователя, но и обязательно калибруют время от времени.
Как все это работает?
Человеческий мозг — очень сложная штука, даже если это мозг очередного скрипт-кидди. И соединить его напрямую с компьютером в ближайшие лет двадцать точно не получится (хотя в случае выше это, возможно, и к лучшему). Для того чтобы имитировать функции обычной клавиатуры, придется сперва обзавестись устройством, выдающим определенные стимулы. Здесь сгодится любой экран — например, отживший свое монитор.
Кроме того, нужна будет система сбора информации. Их делят на две категории: инвазивные и (сюрприз!) неинвазивные. Первые предполагают непосредственное внедрение электродов в области головного мозга и требуют хирургического вмешательства, тогда как вторые позволяют оценивать биопотенциалы удаленно и доступны почти всем желающим.
На самом деле, несмотря на все сложности и лучшее соотношение сигнал — шум, инвазивные системы не предоставляют каких-то существенных преимуществ по сравнению с неинвазивными. Современные исследования не подтвердили возможность извлечь мысленные образы из-под черепной коробки, поэтому шапочку из фольги можешь если и не выбросить, то хотя бы отложить на дальнюю полку.
Сегодня существует много устройств, которые можно использовать в качестве простейших нейроинтерфейсов. Очень популярна платформа OpenBCI, которая позволяет исследователям не только собирать аппаратные стенды для получения биосигналов (16 каналов), но и анализировать их при помощи собственного фреймворка. Он содержит большинство современных методов фильтрации и выявления характерных особенностей в оцифрованных данных.
Кроме того, на сегодняшний день именно OpenBCI — крупнейшее сообщество людей, увлекающихся нейроинтерфейсами как в качестве хобби, так и профессионально. В их онлайн-магазине ты можешь купить все необходимое для своих опытов, начиная от «сухих» электродов и заканчивая серьезными платами с усилителями различных биосигналов.
Также есть интересные альтернативные разработки, вроде FreeEEG, поддерживающего до 32 каналов, и E-motiv EPOC с 14 каналами.
Отдельно стоит отметить проект НейроЧат, в работе над которым принимал участие заведующий лабораторией нейрофизиологии МГУ Александр Яковлевич Каплан. Его устройство позволяет людям с нарушенными моторными функциями общаться в мессенджерах и соцсетях. Скорость ввода сейчас составляет порядка десяти символов в минуту, однако команда планирует добиться радикального ускорения с помощью новых способов: отказа от матричного представления в пользу группировки по признакам, сокращения набора элементов и использования нативного автодополнения.
Кстати, если ты, прочитав эту статью, захотел собрать собственный полиграф (детектор лжи) на основе перечисленных нейроинтерфейсов, то обрати внимание, что такие эксперименты уже проводились, но без какого-либо положительного результата. Выяснилось лишь, что ложь — штука очень индивидуальная и более-менее определенно судить о достоверности ответов по возбуждению тех или иных зон мозга испытуемого можно лишь после тщательной индивидуальной настройки. А это, сам понимаешь, почти всегда не вариант.
Метод P300
Теперь рассмотрим несколько полезных способов, которые облегчают взаимодействия человека с компьютером по нейроинтерфейсам. Самый известный такой способ — P300 — представляет собой сумму компонентов P3a и P3b, из-за чего и получил свое название. Именно на его основе работают многие современные BCI.
Представь себе, что во время эксперимента тебя попросили наблюдать за включением лампочки красного цвета на елочной гирлянде. Если при этом регистрировать электрическую активность в срединно-лобно-центральной части головного мозга, то мы бы увидели четкие отклики на заданный стимул и смазанные на ложные.
Все дело в том, что когда в поле зрения человека попадает объект интереса, то примерно через 250–500 мс в областях P3a и P3b возникает характерный импульс с амплитудой порядка 10 мкВ, хорошо различимый современным оборудованием. В большинстве систем для надежной регистрации вызванных потенциалов достаточно около шести или семи электродов: одного референсного и нескольких дополнительных, расположенных в височных и центральной областях головного мозга.
В экспериментах с виртуальной клавиатурой с помощью метода P300 и математического аппарата SVM удалось добиться скорости ввода порядка 85 бит/мин при точности в 95%. К недостаткам метода можно отнести невысокую скорость и необходимость полного перебора вариантов для всех строк и столбцов. Так, для матрицы 6 на 6 необходимо пройти 12 циклов поиска, что даже при минимальных задержках создает ощутимый временной лаг.
Метод SSVEP
Хорошей альтернативой P300 может быть метод SSVEP, в котором каждому элементу на экране соответствует своя частота мерцания (как правило, близкая к 10 Гц). Дополнительно при этом иногда используется характерный повторяющийся паттерн. Примерно по аналогии с ортогональными кодами, которые широко применяются в радиосвязи стандарта CDMA и некоторых других областях.
В эксперименте с фреймворком EEG2Code (Sebastian Nagel, Martin Spuler, 2018) использовалась клавиатура с 32 клавишами. Данные с ЭЭГ предварительно фильтровали, после чего классифицировали в соответствии с моделью. В результате исследователям удалось достигнуть средней точности распознавания символов порядка 99,3% и скорости ввода около 205 бит/мин.
А уже через год эта же команда на аналогичном оборудовании (связка из IBM Power System S822LC и четырех ускорителей Nvidia Tesla P100) добилась впечатляющей средней скорости в 701 бит/мин (максимум — 1260 бит/мин) при точности свыше 95%! При этом использовались 32 канала с электродами, а классические способы обработки и анализа сигналов изменили в пользу сверточных нейронных сетей и алгоритмов Deep Learning.
Схожие методы — спектральный анализ и классификация через заранее натренированные нейронные сети — выбрали и участники проекта Brain-To-Brain (Renton, Mattingley, Painter, 2018). Их клавиатура содержит меньше клавиш (28), но результаты при этом оказались гораздо скромнее — не более 50 бит/мин.
Комбинированные методы
Интересным и перспективным вариантом для BCI представляется обработка информации сразу с нескольких каналов. Так, нейроинтерфейсы и анализ ЭЭГ можно сочетать с картинкой от видеокамер, фиксирующих направление взгляда пользователя.
В работе (Yao, Ma, Wang, Zhang, Liu, Pei, Chen, 2018) описаны результаты экспериментов по совместному использованию трекера положения взгляда от VR-оборудования и комплекса на основе SSVEP. Так появляется возможность сразу отбросить те символы, которые не попадают в фокус человеческого глаза. Сокращение доступного набора элементов позволило коллективу увеличить эффективную скорость печати и сохранить процент точности на отличном уровне — 360 бит/мин и 98% соответственно.
Инвазивный нейроинтерфейс Илона Маска
Интерес к нейроинтерфейсам подогрела презентация компании Neuralink, основанной в 2016 году Илоном Маском — миллиардером, филантропом и героем множества мемов. На первоначальном этапе предполагается разработка носимого аппарата инвазивного типа, который поможет парализованным людям. Однако Маск рассчитывает, что в дальнейшем тысячи крохотных электродов (порядка 5 мкм) в коре головного мозга расширят человеческие возможности и позволят обмениваться информацией с компьютером в обе стороны. Привет, трансгуманизм!
В июле 2019 года компания Neuralink поделилась результатами своей двухлетней деятельности: это чип N1, который представляет собой ASIC, предназначенный для первоначальной обработки сигналов от мозга, готовая система с полутора тысячами электродов, протестированная на крысах, а также робот-хирург, который умеет вживлять эти электроды, не повреждая при этом кору головного мозга. Впечатляющие достижения для такой молодой компании!
Но основные вызовы еще только поджидают исследователей. Некоторые их коллеги отмечают, что подобные «иглы» окажутся слишком хрупкими и со временем могут деградировать из-за биохимических процессов в человеческом мозге. Кроме того, даже такие электроды все равно слишком большие для анализа информации с отдельных нейронов.
Какая судьба ждет эту амбициозную разработку, сейчас сказать трудно. И дело не только в технических сложностях — многих волнует этичность такого вмешательства в человеческую природу. Не приведет ли это к еще большему социальному неравенству? Какое отношение к людям с имплантами сложится в обществе? Впрочем, говорить об этом рановато — испытания на людях еще только впереди, и речь пока идет исключительно о медицинских применениях.
Интервью
По такому случаю я решил задать несколько вопросов своему старому знакомому Владимиру Савинову (NoonV). Он сейчас как раз работает над нейроинтерфейсами для Фонда перспективных исследований в Калининграде, поэтому легко согласился на небольшое интервью.
— Сегодня нейроинтерфейсы часто применяются либо для реабилитации людей с нарушениями моторных функций, либо в качестве развлечения — управляемые «силой мысли» ушки, хвостики и прочее. Как ты думаешь, какие перспективы ждут нейроинтерфейсы в ближайшем будущем?
— Если говорить про нейроинтерфейсы, которые потенциально могут стать массовыми, то придется сразу отмести различные варианты инвазивных технологий (то есть всех тех, которые требуют проведения процедур вплоть до хирургических операций). Это фактически не оставляет нам выбора, кроме электроэнцефалографии.
Все эти «уши» и «хвосты» следует отнести скорее к недоразумениям, чем к нейроинтерфейсам. В них больше уловок от маркетологов, чем труда от разработчиков. Единственный электрод, который располагают на лбу пользователя (по той простой причине, что на лбу нет волос), скорее считывает сигналы мышечной активности, чем сигналы головного мозга.
Что же касается нейроклавиатур, то сейчас действительно есть устройства, которые позволяют людям набирать текст «силой мысли». В основе большинства подобных разработок лежит считывание сигнала ЭЭГ с выявлением вызванного потенциала (Р300).
РЕКОМЕНДУЕМ:
Как обмануть нейронную сеть
На практике это выглядит так: пользователю демонстрируют таблицу с буквами, которые периодически подсвечиваются. Когда человек концентрирует внимание на определенной букве, после ее выделения возникает отклик на считываемом сигнале ЭЭГ. Чтобы повысить точность срабатывания, эта процедура проделывается несколько раз. Таким образом, набор текста с использованием данной методики идет не слишком быстро, и полезна она может быть только для полностью парализованных пациентов.
— Очень важной задачей для нейроинтерфейсов является обработка данных и их классификация. Какие фреймворки ты используешь и есть ли прогресс в алгоритмах за последние несколько лет?
— В нашей лаборатории мы ведем разработку в основном с помощью языка программирования Python. Соответственно, применяются довольно стандартные библиотеки: NumPy, SciPy (для цифровой обработки сигналов), scikit-learn (для классических алгоритмов машинного обучения) и Keras TensorFlow (для искусственных нейросетей).
На мой взгляд, основная проблема с широким распространением нейроинтерфейсов состоит в недостаточном развитии используемых технологий и вытекающих отсюда трудностях с их практическим внедрением. Применительно к ЭЭГ мне нравится аналогия с заводом или стадионом, за стенами которого ты стоишь и стараешься по шуму угадать — что же именно там происходит. Приблизительно догадаться можно, но понять что-то конкретное очень сложно.
Именно поэтому та же американская DARPA в своей исследовательской программе N3 (Next-Generation Nonsurgical Neurotechnology), которая ориентирована на разработку высокопроизводительных, двунаправленных интерфейсов мозг — компьютер, вообще не рассматривает ЭЭГ в качестве кандидата. Судя по доступной информации, они выбрали шесть направлений малоинвазивных технологий (наноприемопередатчики, акустооптический подход и различные оптические системы).
Разумеется, прогресс в этой области есть, и в первую очередь он связан с использованием методов машинного обучения для обработки сигналов. Иронично, но искусственные нейросети, все это глубокое обучение и ИИ действительно помогают при обработке сигналов от живых нейронов человеческого мозга.
— По мнению некоторых людей, инвазивные интерфейсы, в том числе нашумевший Neurаlink Илона Маска, — штука несколько бессмысленная, так как большую часть функций можно успешно реализовать и неинвазивными способами. Как ты рассматриваешь перспективы «роботизации» людей, сращивания человека и компьютера?
— На текущем уровне развития технологий — крайне сомневаюсь. Мы еще только в начале пути и слишком многого не знаем. Что же касается компании Neuralink, то, на мой взгляд, основное достоинство представленной разработки заключается в развитии технологий (миниатюризация оборудования, роботизация процесса размещения электродов) и самом стремлении к созданию носимого нейроинтерфейса.
Но пока такое оборудование требует хирургических процедур — маловероятно, что оно получит широкое распространение. Разве что среди тех, кому оно необходимо по медицинским соображениям.
— Рассматривается ли для нейроинтерфейсов обратная задача: например, стимуляция мозга для развития памяти? Или BCI, который бы позволили передать физические ощущения от взаимодействия с удаленным предметом?
— Разумеется, такие задачи тоже рассматриваются, но с результатами пока все не очень хорошо. Опять же, многое упирается в доступные технологии и необходимость инвазивного размещения электродов. Примеры технологий неинвазивных процедур: транскраниальная стимуляция постоянным током (tDCS) и магнитная стимуляция.
tDCS — это когда через электроды и кожу головы пропускается ток порядка единиц миллиампер. Некоторые исследования показывают, что эта процедура действительно помогает улучшить память и обучаемость. Магнитная стимуляция применяется сегодня в терапевтических целях. Есть примеры, когда она использовалась в виде обратной связи в системе BCI. Для этого мощным магнитным полем стимулировалась затылочная область испытуемого, что приводило к возникновению ярких вспышек в сознании (фосфен).
Однако в обоих случаях воздействие затрагивает слишком большие области мозга, так что говорить о целенаправленном вызове «ощущений» и положительных эффектах пока рано.
— Реально ли сегодня упрощение нейроинтерфейсов до такой степени, чтобы экспериментировать с ними мог даже неподготовленный человек? Например, какое-нибудь «Нейродуино», которое бы расширило аудиторию и популяризовало направление в массах?
— Не вижу никаких препятствий. К тому же проект подобного рода уже существует — OpenBCI. Он предлагает несколько видов усилителей (на четыре и восемь каналов), которые можно использовать для самостоятельного съема сигнала ЭЭГ. Так что уже сейчас любой желающий может попробовать силы в создании собственного нейроинтерфейса.
Заключение
Конечно, отказываться от физической клавиатуры сегодня рано. Даже лучшие из нейроинтерфейсов пока не способны конкурировать с традиционными способами ввода ни по скорости, ни по точности. Тем не менее проекты бодро развиваются, а открытый инструментарий и доступные электронные устройства существенно расширяют сообщество людей, способных использовать BCI в решении практических задач.
РЕКОМЕНДУЕМ:
Как взламывают умные машины
Не спеши становиться в очередь на операцию по вживлению Neuralink. Знание о сотнях тысяч биопотенциалов человеческого мозга бесполезно при печати на компьютере, а развитие науки и техники рано или поздно (скорее первое) обязательно приведет к появлению коммерческих решений. Приверженцы механических клавиатур могут и дальше благоговейно их использовать, но лично я откажусь от, по сути, потомка печатной машинки без особого трепета.