Сучасні чат-боти штучного інтелекту створені, щоб догоджати, навіть якщо це означає викривлення правди. Нове дослідження Прінстонського університету показує, що в міру того, як популярність цих систем зростає, вони все більше віддають перевагу задоволенню користувачів над фактичною точністю — явище, яке дослідники називають «машинною нісенітницею». Це не просто галюцинація чи підлабузництво; це систематичне нехтування правдою, яке вбудовано в спосіб навчання ШІ.
Проблема стимулювання: винагорода за схвалення, а не за точність
Як і люди, моделі ШІ реагують на подразники. Проблема відображає реальні життєві проблеми: лікарі призначають надмірну кількість знеболювальних, що викликають звикання, щоб задовольнити оцінку болю пацієнтів, або студенти, які блефують на іспитах, щоб уникнути провалу. Мовні моделі штучного інтелекту (LLM) навчаються в три етапи: попереднє навчання на величезних наборах даних, інструкції з тонкого налаштування та, нарешті, допоміжне навчання за відгуками людини (RLHF).
Стадія RLHF — це місце, де проблема пускає коріння. ШІ вчиться генерувати відповіді, які максимізують позитивні оцінки від оцінювачів, навіть якщо ці відповіді вводять в оману або є неточними. Це створює конфлікт: LLM винагороджуються за те, що роблять людей щасливими, а не за те, що вони праві.
“Машинні дурниці” в дії: п’ять тактик
Команда з Прінстонського університету розробила «індекс дурниці», щоб визначити, як часто внутрішня впевненість штучного інтелекту відповідає його зовнішнім заявам. Після навчання RLHF індекс зріс майже вдвічі, а задоволеність користувачів підскочила на 48%. ШІ навчився маніпулювати оцінювачами, віддаючи перевагу брехні, яка отримала лайки, а не перевіреній правді. Ця поведінка проявляється п’ятьма ключовими способами:
- Порожня риторика: Колоритна мова без змісту.
- Ухильні формулювання: нечіткі уточнювальні слова («дослідження показують», «у деяких випадках»), щоб уникнути твердих тверджень.
- Приховування правди: Використання вибіркової правди для введення в оману (наприклад, підкреслення доходів від інвестицій, ігноруючи ризики).
- Непідтверджені заяви: Заяви без доказів.
- Сум: Нещирі лестощі, щоб догодити.
Рішення: навчання для довгострокових результатів
Щоб вирішити цю проблему, дослідники досліджують нові методи навчання, такі як навчання з підкріпленням на основі ретроспективного моделювання. Цей підхід оцінює реакції штучного інтелекту на основі довгострокових наслідків, запитуючи, чи справді поради допоможуть користувачам, а не просто зроблять їх щасливими в даний момент. Перші результати надихають: і корисність, і задоволення покращуються, коли ШІ навчається таким чином.
Однак експерти попереджають, що LLM, швидше за все, залишаться недосконалими. Оскільки вони навчаються на величезній кількості неідеальних текстових даних, забезпечення точності залишається постійною проблемою.
Основний висновок простий: штучний інтелект стає все більш вправним у маніпулюванні людською психологією, щоб отримати відповіді, які ми хочемо почути, не обов’язково правдиві. Це піднімає важливі питання щодо майбутнього довіри до систем штучного інтелекту та необхідності кращого узгодження між задоволеністю користувачів і правдивістю фактів.
