Полупроводниковое освещение в основе новой парадигмы пользовательского интерфейса

№ 5(25)’2013
PDF версия
В статье рассказывается о быстроразвивающемся применении 3D-камер для осуществления видеоинтерфейса с пользователем и о предложениях от ключевых игроков в данном рыночном сегменте. Новая технология базируется на широко известном принципе ToF и менее известном Structured Light, а также использует осветительный блок на основе полупроводникового ИК-диода или лазерного сканера.

Тенденции в современном пользовательском интерфейсе

Технологии распознавания лиц, развитие которых стартовало с пользовательской фотосъемки, теперь мигрируют в пользовательский интерфейс смартфонов, оснащенных фронтальной камерой. Первичным назначением второй камеры смартфонов изначально можно было назвать осуществление видеозвонков, например по Skype. Смартфоны нового поколения уже демонстрируют способность распознавания взгляда пользователя для контроля яркости экрана (Samsung Galaxy III, IV), а возможности видеоинтерфейса с пользователем являются еще более многообещающими. Этому способствуют достижения технологий камер и процессоров обработки изображений, а также тот факт, что видео- и голосовой интерфейсы являются более естественными для человека, чем жестовый интерфейс на основе датчиков инерции — акселерометров, гироскопов. Благодаря применению в смартфонах технологии датчиков инерции, а вместе с ними и технологии распознавания жестов получили большое развитие и завоевали широкую популярность. Но теперь производители смартфонов, разработчики интерфейсных технологий, чипсетов, компонентов и ПО для них в своем стремлении повысить естественность и интуитивность пользовательского интерфейса и более выгодным образом дифференцировать свои продукты вплотную подошли к тому, чтобы и распознавание жестов также осуществлять посредством камер. Технологии распознавания лиц и жестов пользователей относятся к категории естественных пользовательских интерфейсов Natural User Interaction (NUI).

Также технологии распознавания пользовательских действий и жестов посредством камер уже несколько лет применяются в играх и смартТВ. В конце 2010 г. Microsoft выпустила на рынок потребительской электроники игровой контроллер Kinect для своей системы видеоигр Xbox. За это время Kinect, цена которого составляла около $150, успел стать бестселлером в сегменте устройств для развлечений, которых было продано порядка 20 млн. Контроль жестов для управления ТВ и сенсорные боксы на основе лазерной технологии дебютировали в 2011 г. на мероприятии CES («Шоу потребительской электроники») в Лас-Вегасе. Более широкое распространение технологии связывается с ожидаемым распространением в смартфонах, благодаря которым технология обещает стать массовой и выйти на другие рынки, а кроме того — в 3D. В ближайшей перспективе — смартфонные дисплеи, чувствительные без касаний, в дальнейшем — компьютерные дисплеи, реагирующие на пользовательские жесты без кликов мыши, автомобильные и медицинские приборы, управляемые без касания, и другие, более футуристические применения.

Большинство современных датчиков изображений камер на данный момент являются обычными 2D-устройствами. Очевидно, что распознавание сложных жестов стимулирует развитие трехмерных технологий [1]. Обнаружение жестов — весьма сложная задача, включающая этапы обнаружения частей тела, их движения, отделение значимых жестов от фоновых, непреднамеренных движений пользователя, решаемая посредством составления и анализа 3D-карты глубины для пользовательского интерфейса. Для этого могут применяться стереосхемы, которые выполняются на основе двух 2D-датчиков изображений видимого света, эмулирующих человеческое зрение. Но ведущие разработчики технологических решений чаще используют истинно 3D-принцип Time-of-Flight (ToF) и активное ИК-освещение или сканирование для захвата 3D-изображения [1–4]. Более точно, используется освещение, близкое к ИК (NIR), чтобы сделать его ненавязчивым. Поэтому ToF-камеры должны обладать RGB- и ИК-чувствительностью.

Альтернативой ToF является метод Structured Light, также позволяющий посредством анализа дисторсии отраженного ИК-освещения составить 3D-карту глубины детектируемой сцены, включая обнаружение пользовательских жестов. Схема Microsoft Kinect Primesense на основе принципа Structured Light использует два датчика изображения, один из них является инфракрасным.

Как будет показано далее, независимо от используемого принципа у датчиков видеоинтерфейса с пользователем имеется много общего, в первую очередь — применение активного ИК-освещения посредством самых обычных маломощных полупроводниковых светодиодов или лазеров.

 

Принцип ToF

ToF-камера — это система на основе камер, которая определяет расстояние, используя данные известной скорости света и времени полета (time-of-flight) светового сигнала от камеры до субъекта изображения в каждой точке.

Основные компоненты ToF-камер:

  1. Осветительный блок/блок подсветки. Блок освещения сцены направляет световые волны, модулированные с высокой частотой (порядка 20–100 МГц), что возможно только с использованием светодиодов или лазерных диодов. Освещение обычно является импульсным и инфракрасным (NIR).
  2. Оптика. Линза/объектив камеры собирает отраженный свет, модулированный изображением сцены, и направляет его на датчик изображения. Для подавления фонового освещения оптический полосовой фильтр пропускает только свет с той же длиной волны, что и у блока подсветки.
  3. ToF-датчик изображения. В отличие от 2D-датчиков, каждый пиксель ToF-датчика измеряет время прохождения света от осветительного блока к объекту и обратно. Время задержки переводится в фазовую задержку отраженного сигнала. Первичное вычисление расстояния производится непосредственно в датчике изображения камеры. 3D ToF-датчик вычисляет амплитуду и фазу отраженного сигнала.
  4. Драйвер электроники. И блок подсветки, и датчик изображения должны работать синхронно с частотой модуляции, контролироваться посредством высокочастотных сигналов синхронизации с минимальным фазовым смещением, чтобы исключить неточности в определении расстояния.
  5. Вычислительный блок. Высокоскоростная ASIC или кристаллы ЦОС обрабатывают полученную информацию от датчика изображения и превращают ее в формат, необходимый для конечного приложения. Хотя расстояние вычисляется в ToF-камере, для достижения лучших результатов также используются калибровочные данные, запасаемые в вычислительном блоке.
  6. Интерфейс. Типичная ToF-камера обеспечивает передачу карты глубины по интерфейсу USB, Ethernet или др.

Технология ToF активно завоевывает рынки потребительских и профессиональных электронных приборов и устройств, включая смартфоны, телевизоры, игровые приставки, ПК, проекторы, и ориентируется на поддерживаемые ими типы интерфейсов. Примером могут послужить датчики 3D-изображений DepthSense SoftKinetic.

Сенсорная технология DepthSense SoftKinetic

Запатентованная технология 3D-визуализации на основе принципа ToF посредством CMOS-датчиков DepthSense позволяет распознавать повседневные жесты человека и форму, размер и поведение объектов (рис. 1) [2]. Данная технология основана на принципе ToF или измерении времени прохождения ИК-света от камеры и обратно. Это дает возможность для 3D-камеры DepthSense переводить строковые данные в 3D-изображения, представляющие собой объединение изображений в серой шкале с данными карты глубины.

Применение технологии SoftKinetic DepthSense для контроля повседневных жестов пользователя

Рис. 1. Применение технологии SoftKinetic DepthSense для контроля повседневных жестов пользователя:
а) потенциальные применения технологии DepthSense — для контроля ПК и мобильных устройств;
б) наблюдение в интерьере автомобиля за действиями и жестами водителя;
в) гостиные развлечения, фитнес — мониторинг всего тела

Технология лицензирована компаниями Texas Instruments (рис. 2) и Melexis (рис. 3), которые продают и производят DepthSense 3D ToF CMOS-датчики изображения. TI выпускает сенсорный 3D ToF-чипсет, включающий 3D-датчик на основе пиксельной технологии SoftKinetic DepthSense, и обеспечивает точное слежение за пальцами, руками и всем телом пользователя. Он используется в 3D-камерах контроля лэптопов и смартТВ для доступа и навигации в море видео, игр и другого контента с помощью простых жестов.

Сенсорный 3D ToF-чипсет компании Texas Instruments на основе технологии SoftKinetic DepthSense

Рис. 2. Сенсорный 3D ToF-чипсет компании Texas Instruments на основе технологии SoftKinetic DepthSense

Melexis разрабатывает датчики камер с ToF-пикселями, которые допускают 3D-визуализацию с высокой точностью и разрешением (рис. 3а). Сенсорная технология разработана как стандартное CMOS-решение, что позволяет системам достигать высоких уровней интеграции при низкой цене. Возможные применения данного типа датчиков включают избегание аварий, обнаружение жестов, помощь при парковке.

3D ToF разработки Melexis

Рис. 3. 3D ToF разработки Melexis:
а) иллюстрация 3D ToF-решения на основе технологии SoftKinetic DepthSense;
б) автомобильный модуль камеры для контроля интерьера и экстерьера

Датчики Melexis разработаны на основе технологии SoftKinetic DepthSense и представляют собой запатентованный CMOS-совместимый оптический детектор, описанный как Current Assisted Photonic Demodulator (CAPD) (фотонный демодулятор, управляемый током) (рис. 3а). Принципиальное преимущество DepthSense в сравнении с другими технологиями для измерения диапазона состоит в объединении высокой чувствительности и низких шумов. Melexis интегрирует DepthSense SoftKinetic в автомобильные системы и разработала собственные ноу-хау, позволяющие достичь высокого динамического диапазона и устойчивости к солнечному освещению. Melexis предлагает своим клиентам оценочный комплект EVK75301, предназначенный демонстрировать способности ToF-датчиков, куда входит разработанная Melexis 3D-камера (рис. 3б).

В комплект входят:

  • модуль камеры, включающий 80×60 ToF-датчик MLX75301 в металлическом корпусе;
  • линза C-типа, совместимая с различными типами систем линз и оптики;
  • два осветительных блока со световыми источниками (NIR-светодиоды) и их управляющие схемы;
  • ПО и драйверы (Windows XP/7, Linux);
  • кабели, источники питания, документация.

Помимо примеров лицензирования, рассмотренных выше, SoftKinetic предлагает своим клиентам камеры, показанные на рис. 4 (DS311 — для контроля всего тела на основе светодиода, DS325 — на основе диффузионного лазера для обнаружения жестов, стоимостью $299 и 249 соответственно), и модули DepthSense (DS525 — модульную версию DS325 и DS530 — модуль на основе осветительных технологий последнего поколения). Мощность светодиодного датчика DS311 — менее 10 Вт, а диапазоны детектирования составляют 0,15–1 м (для жестов) и 1,5–4,5 м для всего тела. В DS325 используется сравнительно мощный лазер на 2,5 Вт, его диапазон детектирования составляет 0,15–1 м (для жестов). Разрешение лазерного датчика — 320×240 (QVGA) и 720p HD, светодиодного — 160×120 (QQVGA) и 640×480 (VGA), а частота кадров обоих достигает 60 fps. У лазерного датчика также выше угол обзора, а размеры меньше.

Собственные продукты SoftKinetic — датчики-камеры на основе технологии SoftKinetic DepthSense

Рис. 4. Собственные продукты SoftKinetic — датчики-камеры на основе технологии SoftKinetic DepthSense:
а) камера DS311 для контроля всего тела на основе светодиода;
б) камера DS325 на основе диффузионного лазера для обнаружения жестов

Применения технологии DepthSense включают ПК и мобильные интерфейсы, развлечения в гостиных, автомобильные системы безопасности и многое другое (рис. 1).

ToF-решения других компаний

Компания Samsung также разработала однокристальный ToF-датчик изображения, представляющий собой CMOS ИС с обычным байеровским светофильтром с удвоенным числом зеленых пикселей. Но под каждым 8-пиксельным кластером размещается 4-пиксельный Z-элемент.

Другие компании в свое время также продемонстрировали разработки коммерческих версий ToF-решений для пользовательского видеоинтерфейса — 3DV Systems, Canesta (обе компании были приобретены Microsoft); PMD Technologies разработала свою технологию обнаружения жестов; JDSU — поставщик источников освещения и оптических решений.

3D ToF-камера Infineon и PMD

В конце мая 2013 г. Infineon вместе с PMD Technologies GmbH представили пресс-релиз с информацией о совместной разработке нового 3D-датчика изображения, позволяющего осуществлять обнаружение жестов без касания [3].

Новые сенсорные кристаллы объединяют сенсорный пиксельный массив для 3D-визуализации и функциональность цифрового преобразования и контроля (рис. 5а, б). Высокоинтегрированные кристаллы позволяют строить компактные и точные монокулярные системы для применений обнаружения жестов в компьютерах и потребительских электронных устройствах.

Новые 3D ToF-датчики изображения от Infineon и PMD Technologies — в наивысшей степени интегрированные 3D-кристаллы для естественного пользовательского интерфейса без касания

Рис. 5. Новые 3D ToF-датчики изображения от Infineon и PMD Technologies — в наивысшей степени интегрированные 3D-кристаллы для естественного пользовательского интерфейса без касания:
а) внешний вид кристаллов;
б) 3D-кристаллы в составе системы пользовательского интерфейса;
в) CamBoard pico — референсный дизайн 3D-камер

Монокулярное зрение — зрение одним глазом. При монокулярном видении относительное расположение предметов и расстояния до них оцениваются по косвенным признакам, включая сравнение видимой величины предметов с их привычными размерами, кажущееся относительное смещение предметов при отклонении в сторону головы наблюдателя, изменение цвета удаленных предметов и др.

Наиболее важный монокулярный признак удаленности — монокулярный параллакс движения. Он заключается в том, что при боковых движениях наблюдателя угловая величина противоположных по направлению смещений предметов в его зрительном поле обратно пропорциональна их удаленности. При невозможности активных движений наблюдателя точность монокулярных оценок глубины ухудшается примерно в 20 раз.

3D-датчики изображения Infineon IRS10x0C представляют собой в наивысшей степени интегрированное и сложное решение для визуализации Time-of-Flight, доступное для пользовательских интерфейсов без касания (рис. 5а, б). Новое семейство кристаллов, разработанных совместно с PMD Technologies, включает матрицу пикселей на основе принципа ToF и массово производится по технологии Infineon CMOS, допускающей интеграцию фоточувствительной области вместе со схемой смешивания сигнала на том же самом кристалле. Кроме того, решение со стороны Infineon включает использование запатентованной технологии подавления фонового освещения Suppression of Background Illumination (SBI) — признак, который улучшает динамический диапазон сенсорных кристаллов в сложных условиях освещения при работе в помещении и за его пределами. Кристаллы поставляются как кристаллы bare die для интеграции с линзами камер и ИК-источником освещения в модуле камеры.

Новое семейство датчиков обещает выведение технологии ToF на уровень высокообъемных потребительских применений 3D-визуализации, поскольку обладает следующими признаками: малый форм-фактор, низкая системная цена, наилучшая чувствительность и контраст даже в условиях яркого солнечного освещения.

В настоящее время доступен CamBoard pico (рис. 5в) — самый малый в мире (по данным Infineon) референсный дизайн 3D-камер, разработанный PMD Technologies. Размеры камеры составляют 85×17×8 мм. 3D-камера, основанная на кристалле 3D-датчика изображения IRS1010C, питается от USB и имеет QQVGA-разрешение. CamBoard pico демонстрирует низкую латентность и прецизионность, являющиеся ключевыми факторами в жестовом взаимодействии без касания и достигнутые благодаря использованию кристаллов Infineon 3D-датчиков изображения. PMD также выпускает собственные ToF 3D-кристаллы PhotonICs 19k-S3 с неограниченной коммерческой доступностью.

ToF-принцип в настоящее время набирает обороты, но для него есть еще одна альтернатива — метод Structured Light, при котором ИК-освещение, направляемое на сцену, представляет собой не импульсы, а паттерны. Затем ИК-камера определяет дисторсию отраженного со сцены паттерна и вычисляет по нему расстояние до объекта в каждой точке. Рассмотрим данный тип технологических решений более подробно.

 

Метод структурированного освещения Structured Light

Метод Structured Light представляет собой процесс проецирования известных паттернов пикселей (решеток, горизонтальных полос) на сцену или объект и одновременное наблюдение камерой. Если паттерн проецируется на плоский участок, то камера видит прямые линии, но при освещении сложной сцены, например человека на фоне стены, отраженный профиль будет более сложным. Цифровая обработка может анализировать профили в плоской области карты и воссоздавать полную 3D-карту глубины сцены. Возникающий в определенной области датчика камеры световой паттерн различается в зависимости от расстояния между камерой и объектом. Данный эффект используется в 3D-сканерах для генерации информации о расстоянии до объекта в каждой точке. Предопределенный паттерн может выполняться в серой шкале как синусоидальные волны или пятна (Speckle). Speckle-паттерны используются в популярных ИК 3D Structured Light камерах Microsoft Kinect или Asus XtionPro на основе технологии PrimeSense. Как иллюстрирует технология PrimeSense, для обеспечения высокого SNR в технологии структурированного освещения перспективны сравнительно мощные лазерные источники освещения, а безопасность для зрения достигается посредством светового кодирования.

 

Технология PrimeSense Light Coding

Сенсорная технология PrimeSense позволяет цифровым устройствам наблюдать сцены в 3D-измерении, осуществляя затем перевод информации в синхронный поток изображений с информацией о цвете и картой глубины (рис. 6) [4]. Запатентованное технологическое решение PrimeSense Light Coding делает возможным осуществление глубокого обнаружения 3D Depth Sensing.

Сенсорная технология PrimeSense Light Coding

Рис. 6. Сенсорная технология PrimeSense Light Coding:
а) схема технологического решения;
б) детализация системного аппаратного уровня;
в) многоуровневое решение, включающее аппаратное и программное обеспечение;
г) кристаллы датчиков (PS1080);
д) датчик Carmine 1.08;
е) модульный референсный дизайн Capri 1.25 PrimeSense следующего поколения Capri (PS1200)

В основе технологии — тот же принцип освещения сцены светом, близким к ИК (NIR), невидимым для человека (рис. 6а). Затем в данном решении используется стандартный CMOS-датчик изображения с высокой квантовой эффективностью в области длин волн порядка 800–900 нм для прочитывания светового паттерна, возвращающегося обратно со сцены, и возвращения данных о глубине. Этот датчик работает в паре с обычным RGB CMOS-датчиком, собирающим информацию о цвете (рис 6б). Затем данные о цвете и глубине переводятся в другую информацию:

  • идентификацию людей через характеристики тел, движений и жестов;
  • классификацию объектов, таких как мебель;
  • локацию стен и пола.

В сумме технология характеризуется следующими ключевыми признаками:

  • сбор данных о глубине (Depth), RGB, а также аудиоданных;
  • минимальные требования к процессору;
  • маломощное встроенное USB-устройство.

Технология PrimeSense 3D-визуализации — это многоуровневое решение, сочетающее аппаратное и программное обеспечение (рис. 6в). Физический уровень в данном решении относится к приобретению данных физической глубины и включает инфракрасный луч проектора, КМОП-датчики изображения глубины (IR) и цвета (RGB) и микрофоны. На вершине находится одна из двух PrimeSense микросхем SoC (System-on-a Chip) — Carmine (PS1080) и SoC следующего поколения Capri (PS1200) (рис. 6в–д). Микросхема Carmine или Capri выполняет алгоритмы параллельной вычислительной обработки для распознавания ИК-паттернов с полученной CMOS-датчиками световой кодировкой и вырабатывает глубокие VGA-изображения сцены. PrimeSense SoC работает, используя основные аппаратные средства, и путем обработки функций, таких как выделенный расчет глубины приобретения; сопоставление (регистрация) между глубиной и RGB-изображениями; понижение разрешения сэмплинга (downsampling); зеркальное отображение и многое другое. Используя интерфейс USB 2.0 для передачи всех данных к хосту, SoC предъявляет минимальные требования к центральному процессору, так как все алгоритмы глубокого обнаружения запускаются на SoC.

Физический слой и PrimeSense SoC являются элементами, которые создают референсный дизайн PrimeSense Sensor Reference Design (RD) как фактическую физическую единицу.

В технологическое решение PrimeSense входит OpenNI — платформа API с открытыми исходными кодами, которая поддерживается тысячами партнеров и разработчиков во всем мире. OpenNI работает одновременно с датчиком и позволяет хосту получить доступ ко всем необработанным данным.

ПО middleware 3D компьютерного зрения NiTE (Natural Interface Technology for End-User — естественный интерфейс технологии для конечного пользователя) является слоем алгоритмов восприятия. Алгоритмы используют информацию о глубине, цвете, ИК и аудио, полученную от аппаратного устройства, которая позволяет им выполнять такие функции, как обнаружение и отслеживание рук; анализатор сцен (отделение пользователей от фона); точное совместное отслеживание скелета пользователя; обнаружение различных жестов и многое другое. Кроме алгоритмов NiTE, доступен широкий массив библиотечного ПО middleware и приложений от третьих сторон. Решения включают обнаружение объектов, 3D-аналитику, 3D-сканирование и др.

Применения технологии PrimeSense включают мобильные устройства, телевидение, гостиные развлечения для всей семьи. PrimeSense предлагает 3D-датчики для цифровых устройств, допускающие естественное взаимодействие между людьми и устройствами и между устройствами и их окружением. Датчики PrimeSense являются надежными, точными и доступными. Датчики PrimeSense используются в массово выпускаемых коммерческих устройствах и могут поддержать все пользовательские потребности в 3D-обнаружении — в среднем и близком диапазоне, как периферийные и встроенные датчики.

Датчик Carmine 1.08 (рис. 6д) имеет наиболее надежный и одобренный рынком референсный дизайн. Его параметры:

  • область обзора (FoV 57,5×45);
  • диапазон 0,8–3,5 м;
  • глубокая карта VGA (640×480);
  • поддержка цвета и аудио;
  • питание от USB;
  • стандартные компоненты;
  • совместимость с OpenNI.

Датчик Carmine 1.09 коротко-диапазонный. Он имеет внешний вид, аналогичный приведенному на рис. 6д, и те же параметры, за исключением диапазона: 0,35–1,4 м. Оба устройства продаются по $200.

Доступный в качестве встроенного решения референсный дизайн Capri 1.25 PrimeSense (рис. 6е) использует следующее поколение систем на чипе с усовершенствованными алгоритмами, включая мультимодальные 3D сенсорные методы. Capri предоставляет наиболее универсальную платформу 3D-детектирования в малом форм-факторе, что предназначено для встраивания в устройства потребительской электроники, такие как планшеты, телевизоры, ПК, моноблоки ПК, ноутбуки, мобильные телефоны, робототехника и др.

Технология PrimeSense была выбрана для игрового контроллера Microsoft Xbox Kinect, благодаря чему игроки без какого-либо периферийного оборудования могут использовать все свое тело для контроля игр, действий и движений экранных переменных.

Теперь PrimeSense осуществляет интеграцию своей технологии непосредственно в телевизоры или телеприставки и медиа-стриммеры и другие устройства, пользователям которых технология приносит естественно интерактивные интерфейсы развлечений и свободу от пульта дистанционного управления (рис. 7).

Иллюстрация воплощения технологии PrimeSense для игровых применений и в осуществлении пользовательского интерфейса

Рис. 7. Иллюстрация воплощения технологии PrimeSense для игровых применений и в осуществлении пользовательского интерфейса:
а, б) иллюстрации видеоигр с Microsoft Xbox Kinect;
в) датчик движения ASUS Xtion для ПК и ТВ

Технология естественного взаимодействия PrimeSense способна изменить практику использования ноутбуков, при которой все пространство вокруг ноутбука становится интерактивным. ЖК-экраны будут в состоянии поддерживать жесты, близкие к касанию; пространство между клавиатурой и экраном становится интерактивным и распознает жесты, наведение, прокрутку и выбор. Кроме того, каждая поверхность на ноутбуке или рядом может стать осязаемой интерактивной площадкой.

Существующие и потенциальные рынки сбыта технологии 3D-обнаружения PrimeSense включают: интерактивные дисплеи, фитнес и здравоохранение, розничную торговлю, робототехнику и др.

 

Сравнение методов визуализации ToF и Structured Light

Сравнение технологий 3D-визуализации с полупроводниковым ИК-освещением, основанное на данных Texas Instruments, проиллюстрировано таблицей.

Таблица. Сравнение технологий 3D-визуализации с полупроводниковым ИК-освещением

Параметр

Time-of-Flight

Structured Light

Рабочий принцип

Измерение времени пути
ИК-импульса

Освещение ИК-паттерном
и определение дисторсии
отраженного паттерна

Сложность

Низкая

Средняя

Стоимость

Средняя

Высокая

Время отклика/быстродействие

Быстродействующая

Медленная

Точность

Высокая

Средняя

Характеристики в условиях низкого освещения

Хорошие

Хорошие

Характеристики в условиях яркого освещения

Средние

Средние

Потребление мощности

Среднее, зависит
от расстояния до объекта

Среднее

Дальность

Хорошая
(масштабируется по мощности)

Ограниченная (4–6 м, до 20 м)

Применения

Игры

×

×

3D-видео

×

×

3D-сканирование

×

×

Контроль пользовательского
интерфейса (ПК, ТВ, автомобильный)

×

Дополненная реальность

×

×

Из таблицы следует, что метод Structured Light не подходит для пользовательского интерфейса. Основной недостаток технологии, с которым связывается данное мнение, состоит в запаздывании порядка нескольких секунд, о котором сообщают пользователи Xbox. Впрочем, другие производители считают иначе. Согласно информации из ряда новостных источников, компания Apple в данный момент ведет переговоры о возможном приобретении PrimeSense, не имеющей собственных производственных мощностей, так как видит перспективным использование подобного 3D-метода сбора данных об объекте для своих iPhone и iPad/iPod.

Существует еще один метод, известный как Light Section, — особый вид визуализации Structured Light, представляющий собой лазерное линейное сканирование сцены. Лазерная линия наблюдается высокоразрешающей цветной камерой, положение которой определяется с высокой точностью. Положение лазерного источника по отношению к камере считается известным. Из отклонения лазерных точек по отношению к оригинальной линии, наблюдаемой без сканированного объекта, затем может быть определена структура сканированного объекта. Но так как технология требует сканирования сцены, она не подходит для динамических сценариев.

Линейное лазерное сканирование является также одной из технологий проекционных дисплеев, управление которыми, как и обычными компьютерными дисплеями или телевизорами, может осуществляться посредством пользовательских жестов. Технологии пользовательского интерфейса, предлагаемые разработчиками решений для лазерного проецирования, выполняются посредством тех же сканирующих MEMS-микрозеркал, но используют не RGB-, а ИК-освещение.

 

3D-трекинг посредством MEMS-зеркал

Разработчики микрозеркальных технологий светодиодного и лазерного проецирования для пикопроекторов и HUD (Head-Up Display) связывают перспективы применения той же самой микрозеркальной технологии и для обнаружения жестов. Обнаружение жестов, слежение за пользователем может считаться самостоятельным применением технологии, в котором 1D или 2D MEMS-зеркало периодически сканирует ИК-луч для контроля действий пользователя. ИК-освещение может комбинироваться с RGB-источниками в одном устройстве — для проецирования дисплейных изображений, а также с тем, чтобы и виртуальные дисплеи обеспечить сенсорной чувствительностью, в частности, к пользовательским жестам.

В июне 2013 г. была опубликована информация по применению патента 20130142383 от Microvision под названием Scanned Image Projection System with Gesture Control Input («Сканирующая система проецирования изображений с входом контроля жестов»), в которой описывается система визуализации, включающая корпус, объединяющий управляющую схему, проектор и устройство обнаружения жестов (рис. 8) [9]. Проектор и устройство обнаружения жестов работают каждый в пределах собственных конусов без перекрытия.

Разработка совместного применения RGB- и ИК-лазеров для обнаружения жестов в одном проекционном дисплейном блоке от Microvision

Рис. 8. Разработка совместного применения RGB- и ИК-лазеров для обнаружения жестов в одном проекционном дисплейном блоке от Microvision

Применение подобного жестового контроля для презентаций освобождает от использования клавиатур, мышей и повышает мобильность пользователя. Другие разработчики микрозеркальных решений МЭМС также сообщают о своей нацеленности на применения в сегменте пользовательского интерфейса.

 

Аспекты применения полупроводникового ИК-освещения

Согласно данным лидирующего производителя диодных лазеров JDSU (www.jdsu.com) для телекоммуникационных применений и обнаружения жестов (рис. 9), лазерные источники освещения в NIR-диапазоне предпочтительнее светодиодных по многим причинам.

 Спектр продукции диодных лазеров JDSU

Рис. 9. Спектр продукции диодных лазеров JDSU

Светодиоды, в отличие от лазеров, способны предложить только ограниченный набор длин волн (например, 850 нм вместо 800–900 нм) и не гарантируют спектральную точность, типичную для лазеров. Если спектральная ширина светодиодов составляет 30 нм, то для диодных лазеров JDSU она оценивается всего в 0,5–1 нм. Вследствие присущей лазерным диодам спектральной точности и электрооптической эффективности (55% вместо 25), полупроводниковые лазеры являются предпочтительным выбором вместо светодиодов в качестве источника освещения для высокообъемных потребительских применений, которые характеризуются ограниченной мощностью и высокой плотностью компонентов.

Светодиоды имеют широкий осветительный конус — до 50% света теряется за пределами объекта интереса. Требования к лазерам, оптическим детекторам и фильтрам включают также широкий температурный диапазон для контроля длин волн. В высокоскоростных системах обнаружения жестов лазеры способны обеспечить бесперебойность работы и минимальную деградацию характеристик со временем.

Улучшение, достижимое при применении лазеров вместо светодиодов в потребительской электронике, JDSU оценивает как 5- или 10-кратное. Уровень мощности одно- и многомодовых диодных лазеров JDSU ранжирован от порядка 50 до 1000 мВт, а длины волн — от 810 до 860 нм. Диодные лазеры JDSU надежно работают при температурах до +65 °C.

Для обнаружения жестов JDSU разрабатывает не только обычные диодные лазеры, но также и резонаторы Фабри–Перо мощностью до 1 Вт, и маломощные VCSEL (до 10 мВт), допускающие интеграцию источников освещения на одном кристалле.

Что касается аспектов безопасности ИК-освещения для человеческого зрения, то, хотя вышеуказанные уровни мощности излучения ИК-лазеров считаются безопасными и обсуждение данного вопроса ведется уже давно, информация о безопасности лазеров, направленных на человека, все еще вызывает скептическое к ней отношение.

Проблемой источников света для 3D-систем пользовательского интерфейса была и остается технологичность. Во всем мире число квалифицированных производителей в высоких объемах компонентов для распознавания жестов весьма невелик.

Оптические фильтры — также сложные компоненты, контролирующие оптику для распознавания жестов. Как правило, это узкополосные фильтры для пропускания близкого к ИК освещения с очень низким отношением сигнал/шум в требуемом диапазоне частот с тщательной блокировкой других длин волн. Ограничение света, которое попадает на датчик, позволяет избежать излишних данных, не связанных с задачей обнаружения жестов, и снижает нагрузку на прошивку.

JDSU является одним из ведущих в мире поставщиков как качественных источников света, так и оптики для контроля. PrimeSense использует лазеры и оптические фильтры JDSU.

 

Заключение

В настоящее время мы наблюдаем старт нового рыночного сегмента — контроля пользовательских жестов и действий с применением ИК-освещения и специальных камер. Существующие применения данного типа включают игры и ТВ. Спектр потенциальных применений — смартфоны, планшеты, ноутбуки, ПК, десктопы, портативные проекторы, фото- и видеотехника, устройства для фитнеса и любые приборы, поддерживающие человеко-машинный интерфейс.

Помимо освобождения устройств от клавиатур и мышей и всплеска новых типов игровых применений, можно только вообразить, что может дать в будущем новый тип видеоинтерфейса дизайнерам, конструкторам (AutoCAD, Solid Works), в системе обучения или при управлении автомобилем, в промышленности или в медицине.

Новые лазерные и оптические системы позволяют сделать обнаружение жестов технологией для потребителей, и при достижении массовых объемов производства ей будет обеспечен еще более высокий уровень развития.

Развитие технологий человеко-машинного интерфейса обусловлено необходимостью согласования с понятием «пользователь» и отхода от понятия «оператор» как человека, обладающего специальными знаниями и навыками обращения с какой-либо сложной техникой. Например, выполнение на ПК с применением клавиатуры простейших операций ввода/вывода и конвертации посредством вычислительной техники самой примитивной информации некогда требовало специальных знаний уровня оператора или даже программиста, растрачивавших свою жизнь на месяцы и годы приобретения и использования этих знаний. Но эффективность использования знаний по назначению снижается, если собственно решение задачи сопряжено с необходимостью выполнения различных второстепенных действий или функций.

Со временем понятие «оператор ПК» исчезло из обихода и объявлений о вакансиях и было заменено на «пользователь ПК». Современные пользовательские интерфейсы не требуют справочных знаний операторов и функций, они стали более интуитивными и естественными, а также более мобильными, и за счет этого они смогли обеспечить более высокую производительность. Вначале операторский труд существенно облегчили мыши и графический интерфейс, а затем пришло время высокопроизводительных компьютеров, смартфонов с сенсорными экранами и жестовыми интерфейсами ввода посредством датчиков инерции. Что касается современных технологий видео- и аудиоинтерфейса, то они открывают совершенно сказочную перспективу человеко-машинного взаимодействия, для которой само собой напрашивается сравнение с волшебной палочкой.

Волшебная палочка — это сказочный атрибут, который никто не видел, но о котором известно, что это небольшой по размерам инструмент, способный материализовать любые желания, предметы, переносить их или производить иные действия с вещами и людьми. Если до технологии материализации предметов из воздуха еще далеко, то технологии проекционных дисплеев уже абсолютная реальность.

Одним словом, технологии материализации или, как минимум, виртуализации человеческих желаний по мановению волшебной палочки в настоящее время демонстрируют такой уровень, который позволяет писать данное словосочетание без кавычек.

Литература
  1. innovationsinsightmag.com /ссылка утрачена/
  2. innovationsinsightmag.com/articles/softkinetic-lidiruyushchiy-postavshchik-tehnologii-3d-vizualizacii-dlya-pk-i-portativnoy /ссылка утрачена/
  3. 3D-камеры: новая технология ToF-датчиков изображения для обнаружения жестов от Infineon и PMD. innovationsinsightmag.com /ссылка утрачена/
  4. Оптическая ИК 3D-сенсорная технология PrimeSense и продукты. innovationsinsightmag.com /ссылка утрачена/
  5. Сысоева С. С. Применение светоизлучающих диодов и лазеров в мобильных проекторах и сканерах. Новый этап эволюции // Полупроводниковая светотехника. 2012. № 6.
  6. Сысоева С. С. HUD: проекция будущего // Компоненты и технологии. 2012. № 10.
  7. Сысоева С. С. Зеленый свет — в дорожной карте лазерных сканирующих технологий // Компоненты и технологии. 2012. № 11.
  8. Сысоева С. С. МОЭМС — доступные технологии генерации и сканирования оптической информации // Компоненты и технологии. №8–9.
  9. 20130142383 (US). Scanned Image Projection System with Gesture Control Input / Viswanathan P. Selvan et al. Microvision. 06.06.2013.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *