TỔNG QUAN: Sau khi nỗ lực (và không thành công) trong việc định vị Watson như nền tảng thế hệ tiếp theo cho các ứng dụng AI, IBM hiện đang tập trung vào việc tạo ra các linh kiện phần cứng cho những mô hình AI sinh tạo mới nhất.
Thị trường đang phát triển, công nghệ AI đang tiến vào giai đoạn sản xuất, và IBM mong muốn chiếm lĩnh một phần thị trường từ sự thống trị của Nvidia càng sớm càng tốt.
Gần đây, IBM đã công bố Bộ vi xử lý Telum II và Bộ tăng tốc Spyre, hai thiết kế chip nhằm hỗ trợ khách hàng với khối lượng công việc AI hiện đại. Tập đoàn này, tất nhiên, ưu tiên bán phần cứng của riêng mình, vì vậy cả hai chip đều tương thích độc quyền với các máy tính chính IBM z16.
Telum II là phiên bản mới nhất của kiến trúc Telum, được giới thiệu vào năm 2021. IBM cho biết chip mới được phát triển bằng quy trình sản xuất 5nm của Samsung và có tám lõi hiệu suất cao hoạt động ở tốc độ 5.5GHz. Công ty cũng tiết lộ rằng bộ nhớ cache trên chip đã tăng 40%, với dung lượng L3 và L4 ảo nâng lên lần lượt là 360MB và 2.88GB.
Chip Telum II cũng bao gồm một đơn vị xử lý dữ liệu mới, được thiết kế để tăng tốc các thao tác I/O trực tiếp bên trong CPU. “Những cải tiến phần cứng này được thiết kế để mang lại sự cải thiện hiệu suất đáng kể cho khách hàng so với các thế hệ trước,” IBM cho biết. Mỗi bộ vi xử lý Telum II mới dự kiến sẽ cung cấp mức tăng gấp 4 lần sức mạnh tính toán, đạt 24 triệu phép toán mỗi giây (TOPS).
IBM cho biết rằng TOPS một mình không thể phản ánh đầy đủ câu chuyện. Kiến trúc Telum đã được cải tiến và tối ưu hóa cho hệ sinh thái AI hiện nay, với khả năng xử lý cao và độ trễ thấp trong suy diễn. Chip mới cũng hỗ trợ các loại dữ liệu INT8, điều này sẽ nâng cao hiệu suất cho các ứng dụng được thiết kế với công nghệ INT8, chẳng hạn như các mô hình AI mới.
Phần cứng AI thứ hai mà IBM giới thiệu tại Hot Chips 2024 là Spyre Accelerator, một thẻ PCIe chứa 32 lõi tăng tốc AI, có kiến trúc tương tự như lõi tăng tốc AI trong bộ vi xử lý Telum II. IBM gợi ý rằng khách hàng tiềm năng nên sử dụng cả Telum II và Spyre để chạy các bộ mô hình AI lớn hơn trong những trường hợp mà công ty gọi là “AI tập hợp”.
Phương pháp AI tập hợp tận dụng nhiều mô hình AI để nâng cao hiệu suất và độ chính xác trong kết quả cuối cùng. IBM đã giải thích công nghệ này bằng cách sử dụng một ví dụ phát hiện gian lận yêu cầu, trong đó đánh giá rủi ro ban đầu từ mạng nơ-ron truyền thống được kết hợp với các mô hình ngôn ngữ lớn. Theo IBM, kỹ thuật AI tập hợp rất hiệu quả trong việc tối ưu hóa khối lượng công việc AI đến mức có thể tuân thủ các yêu cầu quy định trong khi giảm thiểu tội phạm tài chính.
Bộ vi xử lý Telum II và Spyre Accelerator có nhiều ứng dụng rộng rãi. IBM nhấn mạnh rằng các chip mới của họ có thể hỗ trợ phát hiện gian lận, các mô hình chống rửa tiền tiên tiến và nhiều hơn nữa. Ngoài ra, chúng cũng có thể được sử dụng để phát triển các trợ lý AI, theo lời công ty.
Theo Techspot