'
Читаєте зараз
Де мої гроші, Google? Чому технокорпорації мають платити за наші дані, які згодовують нейромережам? Колонка Сергія Жданова

Де мої гроші, Google? Чому технокорпорації мають платити за наші дані, які згодовують нейромережам? Колонка Сергія Жданова

Sergiy Zhdanov

Раз на тиждень спеціально для Заборони філософ технологій Сергій Жданов осмислює останні події техносвіту. В сьогоднішній колонці він розмірковує, як генеративні нейромережі навчаються на відкритих кодах, написаних програмістами, яких потім звільняють саме через ефективну роботу нейромереж. А ще — розповідає, чому нам усім мають платити за наші відкриті дані та чому ігнорування їхньої безплатності може призвести до радикального лібертаріанства, коли технокорпорації експлуатуватимуть населення планети.

Якщо ви ще не читали попередніх випусків, з ними можна ознайомитися тут, тут, тут і тут


Щоб нейромережа працювала, потрібні три речі: алгоритми (програмний код), обчислювальні потужності (суперкомп’ютери) та дані (патерни даних), якомога більше якісних даних. Найближчими роками на тлі буму генеративних нейромереж на кшталт GPT4 та Midjourney все сильніше розгорятимуться суперечки навколо даних користувачів — інформації, яка виробляється живими людьми та необхідна для життя та розвитку ШІ.

Минулого тижня Google відкрив доступ до нейромережі Bard — своєї версії ШІ-чата, аналогічного ChatGPT від OpenAI. Як і всі нейромережі, Bard черпає сили з даних користувачів, а його творці в Google мають доступ до найбільших покладів цієї цифрової нафти, бо вже два десятиліття завантажують доступні для індексування в інтернеті дані, щоб їхні пошукові алгоритми працювали.

Bard поки не може використовувати всі дані, що є в розпорядженні Google, тому його тренували на обмеженій, але гігантській базі даних під назвою Infiniset у 1,5 трильйона слів. Відповідаючи на питання «Хто тебе тренував?», Bard перераховує:

  • дані про публічні діалоги, такі як розмови на форумах та в соцмережах;
  • вебтекст, такий як статті та блог-пости;
  • документи з кодом, такі як вихідний код та документація до нього
  • вебдокументи неанглійською мовою, такі як статті новин та сторінки Wikipedia іншими мовами;
  • діалоги з громадських форумів на кшталт Reddit та Quora.

Як ви розумієте, переважна більшість слів, діалогів та документів, на яких вихований Bard, написані людьми — нами з вами. У громадській дискусії заведено говорити: компанія X створила нейромережу Y — але не заведено додавати, що в цій справі взяли і беруть участь мільйони простих користувачів інтернету.

Участь користувачів у виробництві даних можна умовно поділити на дві групи: пряму та опосередковану. Ми беремо участь у прямому виробництві, коли пишемо пости та коментарі, завантажуємо наші відео, фотографії та меми — тобто прямо генеруємо контент, особистий чи діловий. Опосередкована участь у виробництві даних — це лайки, які ми ставимо, голосування, в яких беремо участь, а також неочевидні речі на кшталт характеру споживання контенту. Те, наскільки уважно ви подивилися ролик на YouTube, коли натиснули на паузу, який момент переглядали, а який, навпаки, промотали — всі ці дії виробляють дані, що підживлюють ШІ.

До початку 2020-х про зв’язок даних і нейромереж говорили насамперед в контексті рекомендаційного ШІ соціальних мереж: на основі даних про користувачів і наших дій Google, Instagram, TikTok та інші вибудовують навколо нас алгоритмічні бульбашки, що визначають, який контент ми отримуватимемо надалі. Технокорпорації забирали дані про поведінку користувачів задарма і використовували їх для розвитку ШІ-систем та монетизації користувацької уваги через рекламу, а натомість надавали нам «безплатні» послуги.

Асиметричність такого обміну довгий час не бентежила користувачів безплатних сервісів на кшталт YouTube та Facebook. Але потім почали спливати численні негативні наслідки неконтрольованого збору даних та згодовування їх соцмережевим ШІ — від зростання політичного екстремізму та хаотизації демократій до сплеску психічних та психологічних розладів у підлітків.

Тепер дані користувачів, які роками живили рекомендаційний ШІ соцмереж, виховали нове покоління генеративних нейромереж на кшталт GPT-4 — набагато складніших і корисніших, але водночас більш небезпечних і непередбачуваних. Турбота про персональні дані, які задарма згодовуються нейромережам, і дотепер може здатися дріб’язковістю — обивателю в цілому складно уявити, що дані про нього можуть мати якусь особливу цінність: «кому я потрібен?», «і що, що вони знають?», «Мені нема чого приховувати» і так далі. Але ж нейромережі роблять користувачів більш ефективними, і майже задарма — хіба шкода за таке віддати непотрібні, невидимі особисті дані? Чим поганим це може обернутися?

Перспектива заміни значної частини працівників нейромережами стала спільним місцем у сучасній культурі: всі знають, що, швидше за все, сотні мільйонів людей втратять роботу та профпридатність. Кремнієва долина розробляє ШІ, який має замінити людей-працівників, і перша входить у нову нейромережеву реальність, скорочуючи десятки тисяч талановитих співробітників, на пошуки та наймання яких були витрачені величезні гроші та сили.

Іронія полягає в тому, що нейромережі замінюють людей, спираючись на дані, вироблені тими самими людьми. Поміркуйте самі: програмісти, яких зараз масово звільняють із технокорпорацій, роками безплатно ділилися своїм кодом на платформах на кшталт Github — і саме їхній безплатний код ліг в основу нейромереж-програмістів типу Copilot, через які автори вихідного коду тепер втрачають роботу. Те саме можна сказати про юристів, фінансистів, журналістів, дизайнерів, музикантів і безліч інших професіоналів, чиї дані, найчастіше без дозволу авторів, стають їжею, яка вирощує всемогутній ШІ, що прийшов, щоб позбавити їх роботи.

Ні Кремнієва долина, ні спеціальні юристи, ні тим більше політики — ніхто поки що не може розібратися, в яких юридичних та економічних відносинах надалі перебуватимуть нейромережі та люди, які створюють дані для цих нейромереж, ботів та великих мовних моделей (LLM). І справа не в тому, що цю сферу технічно складно регулювати: технічно неважко з’ясувати, де дані лежать, для чого використовуються і який результат виробляють. Складнощі виникають через те, що від розв’язання цього питання залежать трильйони доларів майбутніх доходів від ШІ-революції: кому вони належатимуть і як розподілятимуться?

Якщо нічого не зміниться і юридична та політична невизначеність навколо даних триватиме ще якийсь час, то індустрія комерційних нейромереж встановить свої правила. Доходи, як завжди, осядуть у технокорпорацій на кшталт Microsoft, які вже мають ШІ-тріаду: дані користувачів, алгоритми нейромереж та обчислювальні потужності. Microsoft, Google, Facebook та інші ШІ-компанії будуть реалізовувати ту ж «безплатну» модель, представлену в епоху соцмереж: користувачі віддаватимуть свої дані задарма, а натомість отримають можливість умовно безплатно побавитися з нейромережами на кшталт ChatGPT. Повний же потенціал нейромереж буде доступний тільки ШІ-корпораціям та їхнім заможним клієнтам, здатним оплачувати величезні рахунки за роботу серверів, де розташовуватимуться просунуті приватні нейромережі, що вимагають гігантських обчислювальних потужностей.

Чи є альтернативи?

Батько віртуальної реальності (і один із найгучніших критиків соцмереж), американець з українським корінням Джарон Ланьє, називає альтернативний підхід «гідністю даних», «підприємницькою демократією» та «гуманістичною цифровою економікою». Суть цього підходу полягає в тому, щоб зобов’язати корпорації та уряди, які використовують дані користувачів для ШІ, платити користувачам за виробництво цих даних, як за роботу.

Ланьє пояснює різницю між підходом, що домінує нині, і гуманістичною цифровою економікою на прикладі журналістики: «В одному підході ми удаємо, що бот — справжня істота, як людина. Щоб ця фантазія працювала, ми маємо акуратно забути про всі джерела, якими бот користується, щоб функціонувати. Журналістика, очевидно, постраждає від такого підходу. За іншого підходу ми все-таки стежимо за джерелами бота. У такому разі світ матиме інший вигляд, і якщо бот спирався на вашу роботу, ви отримаєте за це гроші. З’являється почуття загальної відповідальності та причетності, все працює більш злагоджено — це називається data dignity (гідність даних)».

Підсумок

Економічна модель, в якій користувачі отримують гроші за дані та участь у тренуванні нейромереж — найдемократичніша і дружня до простих людей, які поступляться старими робочими місцями ШІ.

Але якщо в епоху ШІ від користувачів продовжать без дозволу відчужувати їхні дані, ми отримаємо поєднання двох вкрай негативних сценаріїв. З одного боку, ми можемо дійти дикого цифрового лібертаріанства: нічим не обмежені ШІ-корпорації, що поглинули уряди, за копійки експлуатуватимуть безробітних користувачів. З іншого боку, держави можуть поглинути ШІ-корпорації, і тоді найлогічнішим виходом буде запровадження універсального базового доходу — гарантованої допомоги, яку держави виплачуватимуть безробітним громадянам, розпоряджаючись їхніми даними для утримання влади. Серед представників техноеліт досить популярні обидві концепції.

А от концепція data dignity не особливо популярна у технокорпорацій, які зараз мають безплатний доступ до даних користувачів і не мають жодної мотивації ділитися прибутком від монетизації цих даних із самими користувачами. Проте data dignity — не безнадійна концепція, оскільки її популяризатор Джарон Ланьє вже багато років працює на компанію Microsoft, а отже, сама ідея платити користувачам за дані не бентежить одну з головних корпорацій ШІ-революції.

Навіть якщо відкинути думки про те, що мегакорпорація може поступатися прибутком заради загальної справедливості, залишиться інше раціональне пояснення, навіщо Microsoft може захотіти просувати концепцію data dignity: щоб потопити корпорації-конкуренти на кшталт Google та Facebook, які десятиліттями безплатно збирали і монетизували дані користувачів. Якщо Microsoft підніме моральну планку вгору і почне платити користувачам за їхні дані, конкуренти будуть змушені або робити так само, або зазнають великих репутаційних втрат і втратять лояльність пересічних клієнтів.

Найціннішим у концепції data dignity мені видається саме питання гідності. Ланьє малює картину можливого майбутнього, в якому люди не просто заворожено спостерігають, як ШІ з’їдає світ, а трансформують його разом з нейромережами, свідомо вихованими нашими діями та контентом. У такому світі творчість, поки в повному сенсі недоступна ШІ, стає джерелом доходу і гідності людей, що віддали нейромережам нудну рутинну роботу, яку люди і так не хотіли робити, але були змушені задля грошей.

Ця картина мені подобається набагато більше, ніж змальована, наприклад, Ілоном Маском, який каже, що людство — це лише завантажувальний файл для штучного інтелекту: коли ШІ постане, люди стануть для нього тим самим, чим зараз для нас є мавпи — кумедними звірятками, про яких можна піклуватися, але в разі чого посадити в клітку.

Сподобався матеріал?

Підтримай Заборону на Patreon, щоб ми могли випускати ще більше цікавих історій