Đầu năm nay, Apple đã công bố và mở mã nguồn với tên gọi Recurrent Drafter (ReDrafter). Đây là một phương pháp kết hợp beam search và dynamic tree để tăng tốc quá trình tạo văn bản, cụ thể:
- Tìm kiếm chùm tia (beam search) sẽ giúp khám phá nhiều chuỗi văn bản tiềm năng cùng một lúc để có kết quả tốt hơn.
- Chú ý cây động (dynamic tree) giúp sắp xếp và loại bỏ các phần chồng chéo không cần thiết giữa các chuỗi này để cải thiện hiệu quả.
Hiện Apple đã tích hợp công nghệ này vào khuôn khổ TensorRT-LLM của NVIDIA, giúp tối ưu hóa LLM chạy trên GPU NVIDIA và đạt được "hiệu suất tiên tiến". Việc tích hợp này cho thấy kỹ thuật quản lý tốc độ tăng 2.7 lần trong các mã thông báo được tạo ra mỗi giây trong quá trình thử nghiệm với mô hình sản xuất chứa hàng chục tỷ tham số.
Đặc biệt, Apple cũng cho biết hiệu suất được cải thiện không chỉ làm giảm độ trễ mà còn dẫn đến giảm mức sử dụng GPU và mức tiêu thụ điện năng cho máy tính. Blog Nghiên cứu máy học của Apple có chia sẻ như sau:
"LLM ngày càng được sử dụng nhiều hơn để cung cấp năng lượng cho các ứng dụng sản xuất và việc cải thiện hiệu quả suy luận có thể tác động đến chi phí tính toán và giảm độ trễ cho người dùng. Với cách tiếp cận mới lạ của ReDrafter đối với giải mã suy đoán được tích hợp vào khuôn khổ NVIDIA TensorRT-LLM, các nhà phát triển hiện có thể hưởng lợi từ việc tạo mã thông báo nhanh hơn trên GPU NVIDIA cho các ứng dụng LLM sản xuất của họ."
Nếu bạn cũng quan tâm đến việc triển khai ReDrafter, thì có thể tham khảo chi tiết chúng tại website của Apple và blog dành cho nhà phát triển của NVIDIA.
TVQuản trị viênQuản trị viên
Xin chào quý khách. Quý khách hãy để lại bình luận, chúng tôi sẽ phản hồi sớm