Смартфони сьогодні вже не фотографують – вони генерують знімок за лише їм відомими алгоритмами. Такий підхід називається обчислювальна фотографія і він дозволив зменшити недоліки, які мають крихітні сенсори їхніх камер. Однак у напрямку обчислювального фото телефони вже майже досягли вершини можливостей – фотографії можна створювати в майже повній темряві. Тому виробники шукають наступне поле битви камер і ним може стати обчислювальне відео.
Смартфони мають крихітні сенсори і це накладає на них багато обмежень. Слабке освітлення, багато тіней та світла, дрібні деталі на предметах – усе це призводило до низькоякісних фотографій.
В останнє десятиліття обчислювальні потужності мобільних чипів значно виросли і це дозволило робити не один, а кілька знімків коли користувач натискає кнопку затвора.
Навіть тремтіння рук смартфони перетворили на інструмент підвищення якості фотографій.
Однак до цих пір не було таких же можливостей у відео. При зйомці відео у складному освітленні проявляється більшість тих же проблем, з якими користувачі стикалися в епоху до обчислювальної фотографії.
Обчислювальне відео створює певні набір проблем, тому що немає часу, як це є при обчислювальному фото. Телефону може знадобитися кілька секунд, щоб визначити, як має виглядати нерухоме зображення з його камери, створити його з десятка окремих експозицій і витратити значний час на їх об’єднання.
Якщо на кожне фото телефон без проблем може витратити кілька десятків секунд, з відео такої розкоші немає. Адже кожна секунда відеоряду містить від 24 до 60 окремих зображень. Телефон не може зробити по кілька знімків кожного із цих зображень тому що просто немає часу на їхнє захоплення, не кажучи вже про те, щоб обробити їх.
Пошук нового набору рішень для обчислювального відео в даний час є головною метою для кожного великого виробника. Це стало одним з найважливіших завдань для процесорів NPU, потужність яких на даний момент збільшується швидше, ніж у будь-якої іншої частини телефонів.
NPU – це нейронний процесор, який обробляє робочі навантаження машинного навчання і “штучного інтелекту”. Коли вони тільки почали з’являтися, очікувалося, що вони будуть використовуватися для розширеної реальності.
Так воно і сталося, але виявилося, що способи використання штучного інтелекту, машинного навчання і нейронної обробки для фотографії насправді набагато ширше.
Сила нейронних процесорів полягає в тому, що вони можуть обробляти величезну кількість інструкцій за короткий проміжок часу, використовуючи при цьому дуже мало енергії. Це саме те, що потрібно для обчислювального відео.
Є 2DNR і 3DNR – двовимірне і тривимірне шумозаглушення. Це процес відокремлення деталей від шуму в спробі полішити якість зображення без зменшення кількості візуальної інформації.
Камери вже використовують шумозаглушення, але більша потужність нейронної обробки дозволяє новим телефонам використовувати більш просунуті алгоритми NR для більш ефективного виконання цієї роботи.
У чому різниця між 2D і 3D NR? У режимі 2D шумозаглушення використовуються методи машинного навчання, засновані на мільйонах схожих знімків, зроблених іншими. Кожен кадр обробляється як нерухоме зображення. Пікселі порівнюються з сусідніми кластерами пікселів, щоб ідентифікувати та усунути шум.
Додатковий вимір, доданий 3DNR, – це час. Придушення шуму засноване на тому, що з’являється в послідовних кадрах, а не тільки на даних зображення з одного кадру.
Завдання обчислювального відео полягає в тому, щоб забезпечити обидва типи шумозаглушення одночасно, але з використанням правильної техніки в правильних частинах сцени. 3DNR прекрасно працює для відносно нерухомих областей зображення.
3D-шумозаглушення дає телефону набагато більше шансів зберегти справжні деталі, не створюючи враження, що вони з’являються і зникають від кадру до кадру.
Однак 3DNR не є відмінним рішенням для рухомих об’єктів. Телефон повинен відокремлювати частини зображення в русі, нерухомі області, застосовувати різні форми обробки і бути готовим змінювати ці області за долі секунди.
Також потрібен телефон, який одразу записує дані з меншою кількіст шуму. Для цього можна використовувати камеру з сенсором більшого розміру та вищою чутливістю.
Одним із хороших шляхів є більш ефективне використання оптичної стабілізації (OIS). Це двигун в камері, який злегка переміщує об’єктив, щоб компенсувати будь-який рух в руках користувача.
Ця компенсація руху дозволяє телефону використовувати більш повільну витримку, уникаючи при цьому розмитого зображення. При зйомці вночі, чим довше витримка, тим краще дані, якими володіє камера телефону для побудови кадру. А при зйомці зі швидкістю 30 кадрів в секунду максимальне теоретичне вікно, очевидно, становить 1/30 секунди.
Обчислювальне відео може динамічно використовувати цю концепцію вікна максимальної експозиції за допомогою OIS, стабілізуючого об’єктив.
У деяких ситуаціях з низькою освітленістю телефон виграє від зниження частоти кадрів до 30 кадрів в секунду, навіть якщо встановлено запис 60 кадрів в секунду. Це подвоює максимальний час експозиції, дозволяючи камері захоплювати кадри з більшою деталізацією і меншим рівнем шуму.
Відсутні кадри потім можна штучно згенерувати шляхом аналізу різниці в даних зображення між кадрами, які уже є.
Телефон може навіть знизити частоту кадрів до набагато нижчої, наприклад до 15 кадрів в секунду, і при цьому створювати відео з частотою 60 кадрів в секунду, що може виглядати чудово, якщо сцена досить нерухома.
Чим нижче частота кадрів, тим довше стає вікно максимальної експозиції. Однак на даний момент це теоретичні методи.
OIS, технологія, якя робить повільну витримку життєздатною, може компенсувати рух тільки на одному кінці. Це дозволяє уникнути розмиття рукостискання, а не розмиття руху бігуна в кадрі.
Одна з функцій обчислювального відео полягає в тому, щоб впоратися з цим, змінюючи швидкість захоплення на льоту.
Існує також апаратний метод, який може допомогти, називається DOL-HDR. Можливо, ви добре знайомі з режимами HDR для фотознімків. У них кілька кадрів об’єднуються, щоб створити одну картинку. У світі телефонів це може означати від трьох до 36 зображень.
З відео на це немає часу, і мінімальний час для запису незначних змін, що відбулися в сцені при зйомці цих експозицій, викликає ефект, званий ореолом в погано оброблених режимах HDR.
DOL-HDR дозволяє уникнути цих проблем, роблячи два знімки одночасно, використовуючи один датчик камери.
Як? Дані з звичайного датчика камери зчитуються рядок за рядком, подібно до того, як друкуюча головка принтера прокладає свій шлях по аркушу паперу. Один ряд пікселів слідує за наступним.
DOL-HDR записує дві версії кожного рядка одночасно, одну з зображень з довшою експозицією, іншу – з більш короткою експозицією. Цей вид HDR може бути широко використаний в сценах, де рівень освітленості дуже контрастний, наприклад, під час заходу Сонця.
DOL-HDR також можна використовувати для максимального збільшення деталізації руху і динамічного діапазону нічного відео. Уявіть собі сцену: відносно тихе відео при слабкому освітленні, але в кадрі пробігає людина, і ми не хочемо, щоб бігун був розмитим.
За допомогою DOL-HDR можна використовувати коротку експозицію, щоб отримати більш чітке зображення рухомої фігури. А більш тривалу експозицію – щоб отримати кращі результати для фону сцени.
Завдання обчислювального відео полягає в тому, щоб плавно перемикатися між різними стилями і техніками зйомки і брати на себе постійно зростаюче навантаження на їх обробку.
За матеріалами: Techradar
Підписуйтесь на канал в Telegram та читайте нас у Facebook. Завжди цікаві та актуальні новини!