Kết nối mạng AI đang được nỗ lực nghiên cứu nhằm giải quyết thách thức khi làm việc trên các mạng lớn. Giám đốc tiếp thị sản phẩm Keysight Technologies – Linas Dauksa chia sẻ 5 điều cơ bản về cách thức hoạt đọng và kết nối mạng AI, cùng những đặc thù của công nghệ này.
Bộ não của máy tính AI
Trong kết nối mạng AI, bộ xử lý đồ hoạ GPU được xem như bộ não của máy tính. GPU có thể đóng vai trò như bộ xử lý trung tâm (CPU) chuyên biệt, thực hiện các phép toán phức tạp. Bởi cách nhanh nhất để thực hiện phép toán phức tạp là để các nhóm GPU cùng tham gia giải bài toàn.
Tuy nhiên, huấn luyện mô hình AI cần nhiều thời gian (một tuần hoặc thậm chí vài tháng). Sau khi hoàn thành, nó sẽ được đặt trong hệ thống máy tính front-end, cho phép người dùng có thể đặt câu hỏi để mô hình AI tự suy luận.
Một máy tính AI có thể chứa nhiều GPU
Như đã nói ở trên, cách tốt nhất để giải quyết bài toàn AI là sử dụng một nhóm GPU và được kết nối với thiêt bị chuyển mạch. Nhiều giá máy GPU có thể được kết nối bổ sung theo hệ thống phân cấp kết nối mạng.
Đồng thời, khi giải quyết các vấn đề có độ phức tạp cao thì yêu cầu về bộ xử lý đồ hoạ GPU cũng tăng lên, một số dự án còn yêu cầu triển khai các cụm hàng nghìn GPU.
Mỗi cụm Ai được thiết lập như một mạng lưới nhỏ
Theo ông Linas Dauksa - Giám đốc tiếp thị sản phẩm Keysight Technologies, khi xây dựng cụm AI cần thiết lập mạng máy tính nhro nhằm kết nối các GPU và cho phép chia sẻ dữ liệu, cùng hoạt động một cách hiệu quả.
Ví dụ, theo hình minh hoạ cụm AI, các vòng tròn ở dưới biểu thị quy trình công việc trên GPU. Còn GPU có vai trò kết nối các thiết bị chuyển mạch trên nóc giá máy (ToR). Các thiết bị chuyển mạch này cũng kết nối với các thiết bị chuyển mạch đường trục mạng, thể hiện hệ thống phân cấp mạng khi có sự tham gia của nhiều GPU.
Điểm tắc nghẽn kết nối mạng AI
Về mặt kỹ thuật, mạng tắc nghẽn có thể gây ra hậu quả: gia tăng độ trễ gói tin lớn hoặc mất gói tin, buộc các gói tin phải gửi lại. Từ đó làm tăng thời gian hoàn thành công việc khiến số lượng GPU giá trị lớn của các doanh nghiệp bị lãng phí, hệ thống AI không hoạt động hiệu quả.
Đo kiểm – điều kiện vận hành thành công kết nối mạng AI
Để vận hành hiệu quả một cụm AI, GPU cần sử dụng hết công suất để rút ngắn thời gian huấn luyện, tăng tối đa tỷ lệ hoàn vốn đầu tư. Vì vậy, việc đo kiểm, thử nhiệm, đánh giá hiệu năng của kết nối mạng AI rất quan trọng.
Tuy nhiên, điều này cũng tạo ra nhiều khó khăn trong việc đo kiểm kết nối mạng AI:
- Hạn chế về chi phí, thiếu hụt kỹ sư, thiết bị… gây khó khăn trong việc tái tạo toàn bộ hệ thống mạng sản xuất trong phòng thí nghiệm.
- Giảm năng lực xử lý của chính hệ thống sản xuất do hoạt động đo kiểm trên hệ thống gây ra.
- Cách thức kết nối tập thể của các GPU phức tạp
Nhằm khắc phục vấn đề này, các doanh nghiệp có thể tiến hành đo kiểm một tập hợp con của các thiết lập được đề xuất trong môi trường phòng thí nghiệm để đối chuẩn các tham số chính như JCT (thời gian hoàn thành công việc), băng thông mà nhóm AI có thể đạt được và so sánh với mức độ sử dụng nền tảng chuyển mạch và mức sử dụng bộ nhớ đệm.
Theo tổng hợp thông tin từ báo Vietnamnet.
AI (Trí tuệ nhân tạo) đang được phát triển và ứng dụng rộng rãi trong các lĩnh vực với nhiều lợi ích vượt trội nhưng đồng thời cũng đặt ra các vấn đề nâng cấp hạ tầng công nghệ thông tin và bảo mật dữ liệu. Hợp tác với các thương hiệu công nghệ hàng đầu, Huviron Việt Nam sẵn sàng cung cấp các giải pháp nâng cấp hạ tầng mạng, thiết bị mạng chất lượng cao (thiết bị mạng Huviron, thiết bị mạng BDCOM, thiết bị mạng CISCO...) nhằm đáp ứng yêu cầu chuyển đổi số của các doanh nghiệp; đồng thời phối hợp cùng các nhà thầu cơ điện, nhà thầu xây dựng tư vấn, nhà thầu PCCC thiết kế và hỗ trợ giải pháp cho dự án trọng điểm.