editor 1 năm trước

DeepSeek và bài học đắt giá cho các gã khổng lồ công nghệ Mỹ

Vào cuối năm 2024, startup DeepSeek của Trung Quốc khiến cả ngành AI phải sửng sốt khi ra mắt DeepSeek V3 – một mô hình AI tiên tiến có thể sánh ngang GPT-4 nhưng chỉ sử dụng 248 GPU Nvidia H800.

Thành công này không chỉ là một bước tiến lớn trong AI mà còn đặt ra câu hỏi: liệu chi phí cao có thực sự là rào cản không thể vượt qua để tạo ra một AI mạnh mẽ? Người đứng sau thành tựu này là Liang Wenfeng, một thiên tài toán học và nhà tiên phong AI, người đang thách thức các gã khổng lồ công nghệ Mỹ bằng một cách tiếp cận hoàn toàn khác.

Liang Wenfeng: Từ Thiên Tài Toán Học Đến Nhà Cách Mạng AI

Sinh năm 1985 tại Quảng Đông, Liang Wenfeng sớm bộc lộ khả năng toán học xuất sắc. Cha là giáo viên tiểu học, Liang dành cả tuổi thơ để giải các bài toán phức tạp thay vì chơi thể thao như những đứa trẻ khác. Tài năng này giúp ông trúng tuyển vào Đại học Chiết Giang, một trong những trường danh giá nhất Trung Quốc, theo học ngành kỹ thuật thông tin điện tử.

Tại đây, Liang không chỉ nghiên cứu về AI mà còn ứng dụng toán học vào tài chính. Ông nhanh chóng bị cuốn hút bởi giao dịch lượng tử – phương pháp sử dụng thuật toán để dự đoán thị trường chứng khoán. Khi tốt nghiệp, Liang đứng trước một lựa chọn lớn: gia nhập DJI, startup nổi tiếng về drone hay theo đuổi giấc mơ về AI? Ông từ chối DJI vì tin rằng AI có thể làm được nhiều thứ hơn là chỉ điều khiển máy bay không người lái.

Hành Trình Từ Tài Chính Đến AI: Khi Công Nghệ Thống Trị Phố Wall

Năm 2008, cuộc khủng hoảng tài chính toàn cầu làm rung chuyển thị trường chứng khoán. Trong khi nhiều người hoảng loạn, Liang lại thấy cơ hội. Ông cùng một nhóm bạn tại Đại học Tương thành lập một dự án phân tích thị trường bằng AI, với mục tiêu sử dụng machine learning để phát hiện quy luật trong biến động giá cổ phiếu.

Dự án gặp vô số thất bại trong giai đoạn đầu. Nhưng với sự kiên trì và sáng tạo, Liang đã tìm ra cách dự đoán được các biến động nhỏ của thị trường mà các nhà đầu tư truyền thống bỏ lỡ. Đến 2013, ông thành lập Hengxu Jinke Investment Management và sau đó là High Flyer Technology, công ty chuyên về giao dịch AI-driven.

Năm 2016, High Flyer cho ra đời mô hình giao dịch AI đầu tiên, giúp công ty đạt mức 1 tỷ Nhân dân tệ (~140 triệu USD) chỉ trong một thời gian ngắn. Thành công này chứng minh rằng AI có thể đánh bại con người trong lĩnh vực tài chính, đặt nền móng cho tham vọng lớn hơn của Liang: đưa AI vào mọi lĩnh vực của đời sống.

DeepSeek: Định Hình Lại AI Với Chi Phí Cực Thấp

Tháng 5/2023, Liang gây bất ngờ khi rời bỏ ngành tài chính để thành lập DeepSeek, tập trung vào AI tổng quát (AGI) – loại AI có thể thực hiện nhiều nhiệm vụ trí tuệ như con người. Trong khi các công ty lớn đốt hàng trăm triệu USD để huấn luyện AI, DeepSeek chọn cách tối ưu hóa thuật toán để giảm chi phí.

Tháng 5/2024, DeepSeek tung ra DeepSeek V2, một mô hình AI có thể sánh ngang GPT-4 Turbo nhưng chi phí vận hành chỉ bằng 1/70. Đây là kết quả của chiến lược Mixture of Experts (MoE) – cho phép AI chỉ kích hoạt phần phù hợp nhất với từng câu hỏi thay vì sử dụng toàn bộ mô hình.

“Chúng tôi không cần hàng chục ngàn GPU mạnh nhất thế giới. Chúng tôi cần cách tiếp cận thông minh hơn.” – một kỹ sư của DeepSeek chia sẻ.

DeepSeek V3: Kẻ Thách Thức Thung Lũng Silicon

Tháng 12/2024, DeepSeek tiếp tục gây chấn động khi ra mắt DeepSeek V3. Điều làm cả ngành AI kinh ngạc không chỉ là hiệu suất của nó, mà là chi phí cực thấp để huấn luyện mô hình này.

DeepSeek V3 chỉ sử dụng 248 GPU Nvidia H800 – trong khi OpenAI, Meta phải dùng đến hàng trăm nghìn GPU cao cấp hơn.
Chi phí huấn luyện chỉ 558 triệu Nhân dân tệ (~78 triệu USD) – so với 63 – 100 triệu USD của GPT-4.
Sử dụng ít năng lượng hơn 40% so với các mô hình AI thông thường, giúp tiết kiệm điện và giảm tác động môi trường.

Theo chuyên gia AI Andrej Karpathy (cựu thành viên OpenAI): “DeepSeek V3 là một cú sốc lớn. Nó chứng minh rằng với chiến lược đúng, AI có thể được huấn luyện với chi phí thấp hơn nhiều so với những gì chúng ta từng nghĩ.”

Bài Học Cho Thung Lũng Silicon: Đã Đến Lúc Học Từ Trung Quốc?

Sự trỗi dậy của DeepSeek đang khiến các công ty AI phương Tây lo lắng. CEO Scale AI, Alexander Wang, thừa nhận: “DeepSeek là một cú tát vào mặt chúng ta. Trong khi Mỹ đang quá tự mãn, Trung Quốc đã tìm ra cách làm AI rẻ hơn và hiệu quả hơn.”

Trong khi OpenAI và Meta tập trung vào việc huy động hàng tỷ USD, DeepSeek chọn con đường tối ưu thuật toán và phần cứng, cho thấy rằng công nghệ AI không chỉ là cuộc chơi của những gã khổng lồ tài chính.

AI Đang Bước Vào Kỷ Nguyên Mới

DeepSeek và Liang Wenfeng không chỉ tạo ra một công nghệ AI mạnh mẽ, mà còn định nghĩa lại cách AI được xây dựng. Nếu trước đây, người ta tin rằng muốn tạo AI mạnh cần hàng tỷ USD và hàng trăm nghìn GPU, thì DeepSeek đã chứng minh sự thông minh trong thiết kế còn quan trọng hơn cả sức mạnh phần cứng.

Thành công của DeepSeek đang định hình lại ngành AI, mở ra cánh cửa cho các startup nhỏ nhưng đầy sáng tạo. Liệu các ông lớn công nghệ Mỹ có kịp thích ứng, hay sẽ bị bỏ lại phía sau bởi một cuộc cách mạng AI giá rẻ từ Trung Quốc?