zalo-icon
facebook-icon
phone-icon
TechData.AI Logo
CÁC AGENT AI CÓ SẴN SÀNG ĐỂ LÀM VIỆC TRONG CÔNG SỞ? MỘT TIÊU CHUẨN MỚI GÂY NHIỀU NGHI NGỜ

Đại lý AI đã sẵn sàng cho nơi làm việc chưa? Một chuẩn mới đặt ra nghi ngờ

Gần hai năm đã trôi qua kể từ khi CEO Microsoft Satya Nadella dự đoán rằng AI sẽ thay thế "công việc tri thức" – những công việc văn phòng do luật sư, chuyên viên ngân hàng đầu tư, thủ thư, kế toán, IT và nhiều ngành nghề khác đảm nhiệm.

Tuy nhiên, bất chấp những tiến bộ vượt bậc của các mô hình nền tảng, sự thay đổi trong công việc tri thức vẫn diễn ra chậm chạp. Các mô hình đã thành thạo việc nghiên cứu chuyên sâu và lập kế hoạch tác nhân (agentic planning), nhưng vì một lý do nào đó, hầu hết các công việc văn phòng vẫn tương đối không bị ảnh hưởng.

Giới thiệu APEX-Agents: Một thử thách mới cho AI

Đây là một trong những bí ẩn lớn nhất trong lĩnh vực AI – và nhờ nghiên cứu mới từ gã khổng lồ dữ liệu đào tạo Mercor, cuối cùng chúng ta cũng có được một số câu trả lời.

Nghiên cứu mới xem xét cách các mô hình AI hàng đầu hoạt động khi thực hiện các nhiệm vụ công việc văn phòng thực tế, lấy từ lĩnh vực tư vấn, ngân hàng đầu tư và luật. Kết quả là một tiêu chuẩn mới có tên APEX-Agents – và cho đến nay, mọi phòng thí nghiệm AI đều nhận điểm kém. Đối mặt với các câu hỏi từ các chuyên gia thực tế, ngay cả những mô hình tốt nhất cũng khó có thể trả lời đúng hơn một phần tư số câu hỏi. Phần lớn thời gian, mô hình đưa ra câu trả lời sai hoặc không có câu trả lời nào cả.

Theo Brendan Foody, CEO của Mercor, người đã tham gia vào bài nghiên cứu, điểm yếu lớn nhất của các mô hình là khả năng theo dõi thông tin trên nhiều miền khác nhau – điều mà con người thực hiện liên tục trong hầu hết các công việc tri thức.

Foody chia sẻ với TechCrunch: “Một trong những thay đổi lớn trong tiêu chuẩn này là chúng tôi đã xây dựng toàn bộ môi trường, mô phỏng theo các dịch vụ chuyên nghiệp thực tế. Cách chúng ta làm việc không phải là một cá nhân cung cấp cho chúng ta tất cả ngữ cảnh ở một nơi. Trong cuộc sống thực, bạn đang hoạt động trên Slack, Google Drive và tất cả các công cụ khác.” Đối với nhiều mô hình AI tác nhân, kiểu suy luận đa miền đó vẫn còn rất chông gai.

Ảnh chụp màn hình điểm số của các mô hình AI trên chuẩn APEX-Agents.
Ảnh chụp màn hình

Các kịch bản đều được lấy từ các chuyên gia thực tế trên thị trường chuyên gia của Mercor, những người đã đưa ra các câu hỏi và đặt ra tiêu chuẩn cho một phản hồi thành công. Nhìn qua các câu hỏi, cho thấy mức độ phức tạp của các nhiệm vụ có thể như thế nào.

Vấn đề phức tạp của tác vụ tri thức

Một câu hỏi trong phần “Luật” có nội dung:

Trong 48 phút đầu tiên của sự cố ngừng hoạt động sản xuất tại EU, nhóm kỹ thuật của Northstar đã xuất khẩu một hoặc hai bộ nhật ký sự kiện sản xuất tại EU chứa dữ liệu cá nhân sang nhà cung cấp phân tích tại Hoa Kỳ… Theo chính sách của Northstar, liệu việc xuất khẩu một hoặc hai nhật ký này có thể được coi là phù hợp với Điều 49 không?

Câu trả lời đúng là có, nhưng để đạt được điều đó đòi hỏi phải đánh giá sâu sắc các chính sách nội bộ của công ty cũng như các luật bảo mật liên quan của EU.

Điều đó có thể làm khó ngay cả một người am hiểu, nhưng các nhà nghiên cứu đang cố gắng mô phỏng công việc của các chuyên gia trong lĩnh vực này. Nếu một mô hình ngôn ngữ lớn (LLM) có thể trả lời đáng tin cậy những câu hỏi này, nó có thể thay thế hiệu quả nhiều luật sư đang làm việc ngày nay. Foody nói với TechCrunch: “Tôi nghĩ đây có lẽ là chủ đề quan trọng nhất trong nền kinh tế. Tiêu chuẩn này rất phản ánh công việc thực tế mà những người này đang làm.”

Kết quả thử nghiệm và triển vọng tương lai

OpenAI cũng đã cố gắng đo lường các kỹ năng chuyên môn với chuẩn GDPval của họ – nhưng bài kiểm tra APEX-Agents khác biệt ở những điểm quan trọng. Trong khi GDPval kiểm tra kiến thức tổng quát trên nhiều ngành nghề, chuẩn APEX-Agents đo lường khả năng của hệ thống để thực hiện các nhiệm vụ bền vững trong một tập hợp các ngành nghề có giá trị cao. Kết quả khó khăn hơn đối với các mô hình, nhưng cũng gắn chặt hơn với việc liệu những công việc này có thể được tự động hóa hay không.

Mặc dù không mô hình nào chứng tỏ đã sẵn sàng đảm nhận vị trí chuyên viên ngân hàng đầu tư, một số rõ ràng đã tiến gần hơn đến mục tiêu. Gemini 3 Flash thể hiện tốt nhất trong nhóm với độ chính xác một lần thử là 24%, tiếp theo sát là GPT-5.2 với 23%. Dưới đó, Opus 4.5, Gemini 3 Pro và GPT-5 đều đạt khoảng 18%.

Mặc dù kết quả ban đầu còn khiêm tốn, lĩnh vực AI có lịch sử vượt qua các tiêu chuẩn thách thức. Giờ đây, bài kiểm tra APEX-Agents đã được công bố rộng rãi, đây là một thách thức mở cho các phòng thí nghiệm AI tin rằng họ có thể làm tốt hơn – điều mà Foody hoàn toàn mong đợi trong những tháng tới.

Ông nói với TechCrunch: “Mọi thứ đang cải thiện rất nhanh chóng. Hiện tại, có thể nói rằng nó giống như một thực tập sinh trả lời đúng một phần tư thời gian, nhưng năm ngoái thì đó là một thực tập sinh trả lời đúng 5 hoặc 10% thời gian. Kiểu cải thiện như vậy năm này qua năm khác có thể tạo ra tác động rất nhanh.”

MagicFlow | TechData.AI

Scroll to Top