Обновление с открытым исходным кодом TensorRT-LLM включает в себя новую революционную технику обработки.

Обновление TensorRT-LLM с открытым исходным кодом, которое, вероятно, будет опубликовано в ближайшие недели, показывает, что современная система превосходит A100 в восемь раз, тогда как ранее H100 превосходила A100 всего в четыре раза. Это было протестировано на GPT-J 6B, модели, которая используется для обобщения статей CNN и Daily Mail.
При тестировании Llama2 LLM от Meta H100 на базе TensorRT-LLM превзошли A100 в 4,6 раза — по сравнению с 2,6 раза до обновления.
Nvidia H100 быстрее, чем когда-либо
Универсальность и динамичность больших языковых моделей (LLM) могут затруднить группировку запросов и их параллельное выполнение, что означает, что некоторые запросы завершаются раньше, чем другие.
Чтобы решить эту проблему, Nvidia и ее партнеры внедрили в TensorRT-LLM более мощную технику планирования, называемую пакетной обработкой на лето. При этом используется тот факт, что генерацию текста можно разбить на несколько подзадач.
Более того, вместо того, чтобы ждать выполнения всего пакета задач из одного запроса, прежде чем перейти к следующему запросу, система может продолжать обрабатывать новые запросы из разных запросов параллельно.
TensorRT-LLM включает в себя компилятор глубокого обучения TensorRT и включает в себя активные ядра, этапы предварительной и постобработки, а также примитивы связи с несколькими графическими процессорами и узлами.
Результат? Революционная производительность графических процессоров Nvidia открывает путь к новым экспериментам с определенными языковыми моделями, сложной настройкой и высокой производительностью.
Это программное обеспечение использует тензорный параллелизм, при котором весовые матрицы восстанавливаются на устройствах, что, в свою очередь, позволяет эффективно делать выводы в масштабе; Моя модель работает параллельно на нескольких графических процессорах и на нескольких серверах.
TensorRT-LLM также включает в себя полностью консервативные и готовые к использованию популярные версии LLM, включая Llama 2, GPT-2 и GPT-3, а также Falcon, Mosaic MPT, BLOOM и десятки других. Доступ к ним можно получить через API Python.
Обновление доступно в раннем доступе и вскоре будет интегрировано в инфраструктуру Nvidia NeMo, которая является частью Nvidia AI Enterprise. Исследователи могут получить к нему доступ через платформу NeMo, портал NGC или через репозиторий исходных кодов на GitHub.
Больше от TechRadar Pro
Вы профессионалы? Подпишитесь на нашу новостную рассылку
Свяжитесь со мной, чтобы сообщить новости и предложения других брендов Future. Получайте от нас электронные письма от имени наших доверенных партнеров или спонсоров. Отправляя свою информацию, вы соглашаетесь с Условиями использования и Политикой конфиденциальности, и вам исполнилось 16 лет.
Источник
Best AI Anime Upscaler 2022
Remember to check out Yours App using this link: https://yoursapp.com/bycloud or use the code: BYCLOUD to save 60% off the ...