Компьютерное зрение и способность распознавать образы являются неотъемлемой частью искусственного интеллекта (ИИ), который в течение последних нескольких лет прошел стремительный путь от местечковой технологии к господствующей тенденции. И нигде это не было столь очевидно, чем на выставке CES 2017, проходившей в начале этого месяца.
1. Беспилотные автомобили
Самый большой процент случаев применения компьютерного зрения приходится на автомобильную промышленность, поскольку компьютерное зрение, в конце концов, является одной из центральных технологий, обуславливающих существование частично и полностью автономных автомобилей. NVIDIA, которая уже помогла форсировать революцию в обучении посредством своих инструментов глубинного обучения GPU, способствует появлению многих инноваций в автономных автомобилях с помощью NVIDIA Drive PX 2, эталонной платформы для беспилотных автомобилей, уже используемой Tesla, Volvo, Audi, BMW и Mercedes-Benz при внедрении своих полуавтономных и автономных функций. Ее технология осязания DriveNet представляет собой обученных нейронной сетью компьютерное зрение и другие сети — в данном случае все от лидара и радара до ультразвуковых датчиков и множества камер — которые могут воспринимать объекты вокруг себя, полосы движения, транспортные средства и многое другое. В сочетании с новым суперкомпьютером автомобиля с ИИ Xavier, NVIDIA и Audi планируют построить и выпустить на дороги полностью автономную машину к 2020 году.
NVIDIA AI Co Pilot предлагает и иные доступные решения, которые используют распознавание лиц, чтение по губам, отслеживание направления взгляда и распознование речи, обеспечивающие помощь при вождении. Так, например, компьютерное зрение с поддержкой чтения по губам используется для повышения качества распознавания речи, в то время как отслеживание направления взгляда (вкупе положение глаз, лица и головы) не только информирует водителей о том, что они заснули, но и обеспечивает поддержку в сложных дорожных ситуациях, например, когда по разделительной полосе сзади к вам приближается мотоцикл. В части чтения по губам, сети глубинного обучения теперь способны распознавать движение губ с точностью до 95{33d8302486bd10b0fde64d2037652320e6f176a736d71849c0427b0d7398501a}, уступая человеку лишь 3{33d8302486bd10b0fde64d2037652320e6f176a736d71849c0427b0d7398501a} (привет, HAL 9000). Это наделяет сверхчеловеческими способностями, дающими возможность распознавать речь немного точнее в ситуации, когда в автомобиле слишком шумно. Это случай совместной работы нескольких навыков искусственного интеллекта.
2. Персонализация
В будущем, пользовательские настройки автомобиля станут намного лучше благодаря опции распознавания лиц. Концепция Panasonic Chrysler Portal предусматривает размещение на рулевом колесе и снаружи автомобиля камер, которые используют компьютерное зрение, чтобы моментально узнавать водителя еще до того, как он сядет в автомобиль, и обновить список музыкальных произведений в соответствии с его предпочтениями, расположение сиденья, температуру и так далее. Распознавать можно не только водителя, но и пассажиров. Несомненно, это здорово для автолюбителей и их личных авто, но представьте себе, как это могло бы трансформировать услуги такси и фирм по аренде автомобилей, подобных Uber или LYFT.
3. Интерфейсы
Технология компьютерного зрения с распознаванием направления взгляда ушла из игровых ноутбуков в потребительские и бизнес-компьютеры, помогая управлять ими пользователям, которые не могут использовать для этого руки. Устройство Tobii Dynavox PCEye Mini имеет размеры примерно с шариковою ручку, что делает его идеальным аксессуаром для планшетов, ноутбуков и других гаджетов (некоторые новые игровые и офисные ноутбуки Asus, а также смартфоны Huawei, используют технологию отслеживания взгляда Tobii).
В то же время, применение функции контроля жестов, которая использует компьютерное зрение для отслеживания движений рук, продолжает расширяться, в частности, в автомобилях. BMW и VW установят его в будущие модели. Интерфейс HoloActive Touch последнего, с помощью которого пользователи могут управлять виртуальными 3D-экранами и кнопками в области передней части приборной панели, это базовая версия голографического интерфейса Ironman, и он уже реальность. Перспектива развития технологии распознавания жестов доступна любому устройству благодаря таким решениям, как ManoMotion, который наделяет способностью отслеживать жесты и пространственным управлением объектами любое устройство с обычными двухмерными камерами без необходимости обновления оборудования. И так же, как Tobii PCEye Mini использует управление жестами, Singlecue Gen 2 от eyeSight использует компьютерное зрение (распознавание жестов, анализ лица, распознавание действий и многое другое), чтобы контролировать все, начиная от телевизоров и кабельных приставок до осветительных и климатических систем.
Hayo от IndieGoGo возможно самый интригующимй новый интерфейс для всего. Это решение, которое позволяет создавать виртуальные элементы управления для вашего дома — регулятор громкости в пространстве, с помощью которого можно настроить звук движением руки вверх или вниз, выключатель света в определенной области на поверхности кухонной столешницы, активируемый благодаря циндрообразному устройству компьютерного зрения со встроенной камерой, пространственными и инфракрасными датчиками и датчиками движения.
4. Техника
Камеры в дорогом холодильнике, которые просто показывают вам видео того, что в нем лежит, выглядят не особенно революционно. Но дополнив свой старый холодильник даже подержанной камерой и приложением, которое использует распознавание образов, чтобы сообщить вам, когда вы на работе, каких продуктов не хватает, заставляет окунуться вас в игру с совершенно иными правилами. Помимо серии картинок, отправляемых вам на смартфон, Smarter FridgeCam, устройство, которое крепится к задней стенке внутри холодильника, использует распознавание изображения для определения даты истечения срока годности продуктов и сообщает вам, что находится в вашем холодильнике (не говоря уже о рецептах на основе тех продуктов, которые в нем имеются). Цена $100 для такого устройство весьма демократична.
5. Цифровые афиши
Компьютерное зрения открывает потенциал для трансформации баннеров и прочей рекламы в общественных местах, таких как магазины розничной торговли, музеи, стадионы и тематические парки. Стенд компании Panasonic представляет технологию проецирования на флаги, которая использует динамическое отображение проекции с помощью инфракрасных маркеров, невидимых для человеческого глаза, а также стабилизацию видео, чтобы проекция выглядела реалистичнее даже когда флаги развеваются на ветру, как будто реклама на самом деле на них напечатана.
6. Смартфоны и дополненная реальность
О Pokémon Go не писал только ленивый. Игра является первым в мире приложением дополненной реальности, представленном на массовый рынок. Но, как и другие приложения такого рода, она основана главным образом на GPS и системы триангуляции, чтобы создать реальность происходящего перед вами. Настоящее компьютерное зрение обычно отсутствует в смартфонах. Но в ноябре, компания Lenovo выпустила Phab2, первый телефон для использования Tango от Google, в котором используется сочетание датчиков и программного обеспечения компьютерного зрения, чтобы отобразить на фотографиях и видео изображения реального мира, получаемых в реальном времени через объектив камеры. На выставке CES Asus дебютировала со своим ZenPhone AR, который является первым смартфоном с поддержкой Tango и Daydream VR от Google. Отслеживание движения, восприятие объема, а также возможность точного позиционирования стало возможным благодаря процессору Qualcomm Snapdragon 821, который распределяет нагрузку для поддержания функционала компьютерного зрения. Все это делает реальностью компьютерное зрение с поддержкой дополненной реальности.
Между тем, Changhong H2, который выйдет чуть позже в этом году, станет первым смартфоном со встроенным датчиком материала. Основанный на той же технологии, что и карманный анализатор веществ Scio , телефон воспринимает свет, который, согласно пояснительному видео на сайте Scio, «отражаясь от объекта, расщепляется на спектр, а затем подвергается анализу по химическому составу». Совместно спрограммным обеспечением глубинного обучения, эта информация может быть использована для всего от определения состава лекарств и подсчета калорий в продуктах питания до определения состояния кожи и расчета уровня ожирения.
7. Камеры
Центральное место в любой компьютерной платформе визуального анализа является камера. Камеры становятся все умнее и приобретают новый функционал, превосходящий возможности человека. Компания FLIR Systems выпустила несколько новых тепловизионных камер, которые дают возможность использовать компьютерное зрение в новых областям. К примеру, камера GoPro или любая другая этого типа (FLIR Duo или Duo R) может быть подключена к дрону и использоваться для отслеживания тепла во всех видах бытовых и профессиональных сферах деятельности, от обнаружения утечек тепла в крыше до авиасъемок кукурузных полей или нефтяных месторождений. Кстати придется и программное обеспечение, такое как предлагает Birds.ai, стартап из Нидерландов, которая специализируется в области управления и анализа аэрофотоснимков, что дает возможность отслеживания чего угодно от местоположения и количества зерновых культур в фермерском хозяйстве до выявления дефектов в ветровых турбинах и линиях электропередачи.
8. Роботы
Роботы являются частично механическим продуктом и частично производным искусственного интеллекта. И после нескольких лет топтания на месте, оставаясь таким же не исполненным обещанием как и летающий автомобиль в 20 веке, в робототехнике наметился некий прогресс как на потребительском рынке, так и в корпоративном сегменте. Даже простые Alexa от Amazon и голосовое управление Google, а также роботы-ассистенты LG Hub и Mayfield Robotics Kuri теперь имеют основные возможности компьютерного зрения, чтобы иметь возможность, скажем, распознать, с кем они взаимодействуют, или прогнать вашу собаку с дивана, если она прыгает на нем в ваше отсутствие. Более серьезной работу выполняет интеллектуальная система технического зрения ITRI , чтобы научить роботов идентифицировать различные размеры объектов (игровые фигуры, кофейные чашки) и их расположение, чтобы они могли взять их и переместить. Это незаменимый навык в такой работе, как перемещение столика в ресторане или игра в шахматы в компании пожилых людей.
Источник: http://venturebeat.com 8 cool new ways computer vision is changing everything