Các công ty đang nhận ra rằng việc xây dựng AI Agent dễ dàng hơn nhiều so với việc xây dựng các hệ thống giúp những AI Agent đó đáng tin cậy trong môi trường thực tế.
Các nhóm AI doanh nghiệp đã dành hai năm qua để chạy đua xây dựng các agent. Giờ đây, họ đang gặp phải một vấn đề khác: rất ít trong số những agent đó thực sự có thể được tin cậy ở quy mô lớn.

Khoảng cách này đang bắt đầu xuất hiện trong các con số công khai. Prosus được cho là đã xây dựng 50,000 agent nội bộ, nhưng chỉ có khoảng 5,000 agent hoạt động hàng ngày. Tỷ lệ 10 trên 1 đó đã trở thành một chỉ số đáng chú ý phản ánh tình trạng hiện tại của sản xuất AI doanh nghiệp. Vấn đề không phải là liệu các công ty có thể tạo ra agent hay không. Mà là liệu họ có thể xác định một cách đáng tin cậy agent nào an toàn để triển khai, kết quả đầu ra nào đáng tin cậy, và điều gì xảy ra khi hệ thống gặp sự cố.
Sự phân biệt đó quan trọng vì hiệu quả được hứa hẹn của các hệ thống tự động giả định rằng các hệ thống đang đưa ra quyết định đúng đắn ngay từ đầu.
Khoảng cách từ thử nghiệm đến sản xuất
Đối với nhiều nhóm kỹ thuật, làn sóng triển khai AI Agent ban đầu diễn ra nhanh chóng. Các copilot nội bộ, công cụ tự động hóa quy trình làm việc và hệ thống đa agent xuất hiện ở khắp các phòng ban. Demo hoạt động tốt. Các chương trình thí điểm trông rất hứa hẹn.
Môi trường sản xuất lại kể một câu chuyện khác.
Antonio Bustamante, CEO của bem, đã dành nhiều năm làm việc về cơ sở hạ tầng AI cho các ngành được quản lý chặt chẽ, bao gồm bảo hiểm, tài chính và chăm sóc sức khỏe. Theo quan điểm của ông, nút thắt cổ chai lớn nhất của ngành là trách nhiệm giải trình.
Ông chỉ ra một sự cố được thảo luận rộng rãi liên quan đến Upstream, trong đó một AI Agent đã tham gia vào một kênh Slack, và nhóm người dùng được cho là đã im lặng trong 24 giờ vì không ai biết cách tương tác với nó. Bustamante lập luận rằng sự im lặng đó đã phơi bày điều gì đó sâu xa hơn: các công ty chưa thiết kế mô hình vận hành để làm việc cùng với các agent.
Cùng một mô hình xuất hiện trong các triển khai doanh nghiệp quy mô lớn. Các nhóm có thể nhanh chóng tạo ra hàng nghìn agent, nhưng mức độ sử dụng giảm xuống khi những hệ thống đó gặp phải dữ liệu sản xuất lộn xộn, quyền sở hữu không rõ ràng hoặc kết quả đầu ra không chắc chắn.
Đó là lý do tại sao nhiều công ty hiện nay thấy mình có những nỗ lực triển khai AI Agent rộng rãi nhưng lại có rất ít sản xuất AI doanh nghiệp thực sự.
Tại sao các hệ thống đa agent tiếp tục bị đình trệ
Một phần vấn đề xuất phát từ cách môi trường doanh nghiệp thực sự hoạt động.
Trong các demo có kiểm soát, dữ liệu sạch và quy trình làm việc có thể dự đoán được. Các tổ chức thực tế hiếm khi hoạt động theo cách đó. Hầu hết các hệ thống doanh nghiệp chứa các bản ghi phân mảnh, định dạng không nhất quán, thiếu ngữ cảnh và nhiều năm tích lũy các cách giải quyết vấn đề trong vận hành.
Bustamante so sánh tình huống này với dây chuyền lắp ráp. Mô hình sản xuất của Henry Ford thành công vì các đầu vào được tiêu chuẩn hóa trước khi sản xuất được mở rộng quy mô. Các hệ thống đa agent phải đối mặt với điều kiện ngược lại. Chúng được kỳ vọng hoạt động trên dữ liệu doanh nghiệp không được tiêu chuẩn hóa, đây là đặc điểm của hầu hết các môi trường doanh nghiệp.
Một số công ty đã công khai thừa nhận gánh nặng vận hành này. Trong một số triển khai, các tổ chức thấy mình phải phân công người đánh giá thủ công để liên tục xem xét kết quả đầu ra của agent. Trong một ví dụ đang lưu hành trong ngành, một hệ thống đa agent được cho là cần đến 20 người để xác nhận kết quả đằng sau hậu trường.
Điều đó thay đổi hoàn toàn kinh tế học. Những lợi ích được hứa hẹn từ việc triển khai các agent tự động sẽ biến mất nếu con người vẫn cần xác minh mọi quyết định theo cách thủ công.
Điểm tin cậy và lớp trách nhiệm giải trình còn thiếu
Bustamante lập luận rằng điểm tin cậy đã trở thành một trong những thành phần bị bỏ qua nhiều nhất trong quản trị AI và sản xuất cơ sở hạ tầng AI. Nếu không có các hệ thống có thể đo lường sự không chắc chắn, các nhà vận hành không có cách đáng tin cậy để xác định agent nào đã sẵn sàng cho sản xuất và agent nào cần can thiệp.
Trong thực tế, điểm tin cậy có nghĩa là nhiều hơn việc gán một tỷ lệ phần trăm cho một câu trả lời. Nó đòi hỏi các hệ thống có thể giải thích sự không chắc chắn, truy vết các quyết định trở lại dữ liệu nguồn và tạo ra các điểm kiểm tra có sự tham gia của con người trước khi các lỗi tích lũy qua các quy trình làm việc.
Lớp trách nhiệm giải trình AI đó trở nên đặc biệt quan trọng trong các ngành mà những sai lầm có thể dẫn đến hậu quả tài chính hoặc pháp lý. Một lỗi xem xét Khiếu nại bảo hiểm thất bại, lỗi trích xuất dữ liệu y tế, hoặc sai sót trong xử lý tài chính đều có thể trở thành sự kiện chịu trách nhiệm pháp lý.
Bustamante mô tả luận điểm rộng hơn của bem là "Nền tảng điều phối agent cho những thứ không thể thất bại." Cụm từ này phản ánh một nhận thức ngày càng tăng trong toàn ngành: độ tin cậy của AI Agent phụ thuộc ít hơn vào số lượng agent bạn triển khai và nhiều hơn vào việc bạn có thể truy vết, kiểm toán và sửa chữa các quyết định khi có sự cố xảy ra hay không.
Cơ sở hạ tầng sẵn sàng cho sản xuất trông như thế nào
Giai đoạn tiếp theo của AI doanh nghiệp có thể ít liên quan đến việc xây dựng thêm agent hơn và liên quan nhiều hơn đến việc xây dựng các hệ thống xung quanh chúng.
Các công ty tập trung vào việc sử dụng AI Agent lâu dài ngày càng tìm kiếm cơ sở hạ tầng linh hoạt trong quá trình thực thi, cứng nhắc trong kết quả và có thể truy vết trong các điều kiện thất bại. Điều đó bao gồm điểm tin cậy, dấu vết kiểm toán, các điểm can thiệp, tiêu chuẩn hóa dữ liệu và các hệ thống quản trị được thiết kế cho sản xuất, không phải cho demo.
Các công ty thu hẹp khoảng cách giữa thử nghiệm hệ thống đa agent và triển khai thực tế có thể không phải là những công ty có nhiều agent nhất. Họ có thể là những công ty cuối cùng xây dựng được cơ sở hạ tầng trách nhiệm giải trình mà các doanh nghiệp đã bỏ qua lần đầu tiên.








