Apple співпрацює з NVIDIA для покращення продуктивності великих мовних моделей
Apple оголосила про важливу співпрацю з NVIDIA, метою якої є значне підвищення ефективності великих мовних моделей (LLMs). У рамках цього партнерства використовується нова технологія генерації тексту – Recurrent Drafter (ReDrafter), яку Apple відкрила та зробила доступною для спільноти раніше цього року. Цей метод поєднує beam search (пошук по променях) та динамічну увагу до дерева для пришвидшення генерації тексту, досягаючи значних покращень у швидкості та ефективності роботи штучного інтелекту.
Що таке ReDrafter?
ReDrafter використовує інноваційний підхід до спекулятивного декодування, який включає:
• Пошук по променях (beam search), що дозволяє аналізувати декілька можливих текстових варіантів одночасно для отримання якіснішого результату.
• Динамічну увагу до дерева (dynamic tree attention), яка організовує та усуває зайві збіги між текстовими послідовностями, підвищуючи ефективність обчислень.
Інтеграція з NVIDIA TensorRT-LLM
Apple інтегрувала ReDrafter у TensorRT-LLM – платформу NVIDIA, призначену для оптимізації великих мовних моделей на GPU. Це дозволило досягти 2,7-кратного збільшення швидкості генерації токенів під час тестування з моделлю, що має десятки мільярдів параметрів.
Apple зазначає, що таке покращення не лише скорочує час очікування для користувачів, але й зменшує навантаження на GPU, знижуючи споживання енергії.
Що кажуть в Apple?
Науковий блог Apple з машинного навчання пояснює:
Як впровадити ReDrafter?
Детальна інформація доступна на офіційних ресурсах Apple та NVIDIA, де розробники можуть знайти все необхідне для реалізації ReDrafter у своїх проєктах.
Поки немає коментарів…