Нова модель штучного інтелекту Weibo з відкритим кодом VibeThinker-1.5B перевершує DeepSeek-R1 із бюджетом після навчання 7800 доларів США

0
67

Tiny Titan Weibo: як модель з бюджетом $7800 перемагає конкурентів за мільярдами параметрів у сфері логічного мислення

Weibo, китайський еквівалент Twitter із 600 мільйонами активних користувачів щомісяця, викликає хвилю у світі ШІ своїм останнім випуском: VibeThinker-1.5B. Маючи лише 1,5 мільярда параметрів, ця відкрита мовна модель перевершує очікування, забезпечуючи надзвичайну продуктивність у математичних і кодових задачах, часто перевершуючи моделі в сотні разів більші.

Найцікавіше? VibeThinker-1.5B досяг цих вражаючих результатів, витративши лише частину типових витрат на астрономічне навчання, необхідних для навчання великих мовних моделей. Його бюджет після навчання становив лише 7800 доларів — на відміну від сотень тисяч (або навіть мільйонів) доларів, які зазвичай витрачаються на подібні моделі.

За межами грубої сили: парадигма розвитку штучного інтелекту

Великим секретом VibeThinker-1.5B є не його розмір, а геніальний підхід до навчання, відомий як Принцип спектру сигналу (SSP). Замість того, щоб просто намагатися знайти «правильну відповідь» з першого разу, SSP розділяє процес навчання на дві фази:

  • Фаза спектру: модель навчена розглядати широкий спектр можливих відповідей, навіть тих, які можуть бути частково правильними або нестандартними. Це створює різноманітний пул потенційних рішень.
  • Фаза сигналу: Потім система підкріплення вивчає цей пул, визначаючи пріоритети та посилюючи найбільш точні та релевантні шляхи.

Ця двоетапна стратегія дозволяє VibeThinker використовувати свій невеликий розмір, зосереджуючись на якості, а не на кількості. Подумайте про це як про навчання студента не просто запам’ятовувати факти, а й глибоко розуміти концепції, що дозволить їм творчо вирішувати проблеми.

Ефективність у всіх сферах: явний претендент

Результати VibeThinker-1.5B говорять самі за себе:

  • Математика та код: він перевершує моделі в сотні разів більші за спеціалізованими тестами, такими як AIME24 і LiveCodeBench v6, демонструючи його потужні логічні можливості.
  • Загальні знання (GPQA): Хоча він відстає від більших моделей у ширших сферах знань, це відомий недолік малих архітектур.

Це свідчить про те, що VibeThinker відмінно підходить для структурованого мислення на певну тему, водночас конкуруючи з більшими моделями у відповідях на відкриті запитання.

Наслідки для бізнесу: нова ера доступного ШІ

Випуск VibeThinker-1.5B має серйозні наслідки для компаній, які прагнуть інтегрувати ШІ у свою діяльність:

  • Економічно ефективний: Низька вартість після навчання робить його доступним для організацій, які раніше не могли дозволити собі витрати на великі моделі.
  • Гнучкість розгортання: її невеликий розмір дозволяє розгортати модель на пристроях з обмеженими ресурсами, дозволяючи приймати рішення в реальному часі в таких програмах, як мобільні програми або вбудовані системи.
  • Інтерпретація та контроль: Менші моделі часто пропонують більший рівень прозорості в процесах прийняття рішень, що є критично важливим для побудови довіри та забезпечення етичного використання ШІ.

Сміливий крок Weibo: поза межами соціальних мереж

VibeThinker-1.5B демонструє амбіції Weibo вийти за рамки своєї ролі платформи соціальних мереж. Інвестуючи в передові дослідження штучного інтелекту, Weibo прагне зміцнити свої позиції як ключового гравця в китайській екосистемі штучного інтелекту, що швидко розвивається. Цей крок показує, як навіть відомі компанії можуть використовувати відкриті технології для інновацій і перегляду своєї ролі у світі технологій, що швидко змінюється.

VibeThinker-1.5B – це не просто технологічне диво; це план для більш ефективної, доступної та відповідальної розробки штучного інтелекту — зміни парадигми, яка неминуче відіб’ється в усіх галузях і змінить майбутнє штучного інтелекту.

Previous articleApple iPhone, підготовлених до ширшого підключення через супутники
Next articleРосійський робот ШІ спотикається під час дебюту