zalo-icon
facebook-icon
phone-icon
TechData.AI Logo
GPT-5 CẠNH TRANH ĐƯỢC VỚI CON NGƯỜI TRONG NHIỀU CÔNG VIỆC

GPT-5 CẠNH TRANH ĐƯỢC VỚI CON NGƯỜI TRONG NHIỀU CÔNG VIỆC

Chúng ta đang sống trong một kỷ nguyên đầy hứa hẹn, nơi ranh giới giữa khả năng của con người và máy móc ngày càng trở nên mờ nhạt. OpenAI, người dẫn đầu trong lĩnh vực trí tuệ nhân tạo, vừa công bố một bước tiến đáng kinh ngạc: mô hình GPT-5 của họ đã đạt đến mức có thể cạnh tranh ngang hàng với các chuyên gia con người trong hàng loạt công việc có giá trị kinh tế. Điều này không chỉ là một cột mốc công nghệ, mà còn mở ra cánh cửa cho một tương lai làm việc đầy tiềm năng và hiệu quả.

Hệ thống Đánh giá Mới: GDPval

Để đo lường chính xác năng lực của các mô hình AI, OpenAI đã phát triển một công cụ đánh giá mới mang tên GDPval. Đây là một nỗ lực tiên phong nhằm hiểu rõ AI đang tiến gần đến mức vượt trội con người trong các công việc mang lại giá trị kinh tế như thế nào. Mục tiêu cuối cùng của OpenAI là phát triển Trí tuệ Nhân tạo Tổng quát (AGI), và GDPval là một phần quan trọng trong hành trình đó.

Kết quả từ GDPval-v0 cho thấy điều bất ngờ: cả GPT-5 của OpenAI và Claude Opus 4.1 của Anthropic đều đã "tiệm cận chất lượng công việc do các chuyên gia trong ngành thực hiện". Điều này chứng tỏ AI không còn là một công cụ hỗ trợ đơn thuần mà đang trở thành một đối tác đáng gờm trong môi trường làm việc chuyên nghiệp.

Phạm vi và Phương pháp Đánh giá Độc đáo

Phạm vi Rộng lớn của GDPval

GDPval tập trung vào chín ngành công nghiệp cốt lõi đóng góp lớn nhất vào tổng sản phẩm quốc nội của Mỹ, bao gồm y tế, tài chính, sản xuất và chính phủ. Trong mỗi ngành này, 44 nghề nghiệp khác nhau đã được đưa vào thử nghiệm, từ các kỹ sư phần mềm, y tá cho đến các nhà báo. Sự đa dạng này giúp OpenAI có cái nhìn toàn diện về khả năng ứng dụng của AI trong nhiều lĩnh vực.

Cách Thức Đánh Giá Độc Đáo

Phiên bản đầu tiên của GDPval (GDPval-v0) hoạt động bằng cách yêu cầu các chuyên gia có kinh nghiệm trong từng lĩnh vực so sánh các báo cáo được tạo bởi AI với các báo cáo do con người thực hiện. Sau đó, họ sẽ chọn ra báo cáo tốt nhất. Ví dụ, các nhân viên ngân hàng đầu tư được giao nhiệm vụ tạo ra một bức tranh tổng quan về đối thủ cạnh tranh trong ngành giao hàng chặng cuối và so sánh với báo cáo do AI tạo ra. Tỷ lệ "thắng" của mô hình AI so với báo cáo của con người được tính trung bình trên tất cả 44 nghề nghiệp.

Với GPT-5-high, một phiên bản tăng cường sức mạnh tính toán của GPT-5, mô hình này được đánh giá là tốt hơn hoặc ngang bằng với các chuyên gia trong ngành tới 40.6% số lần. Claude Opus 4.1 của Anthropic thậm chí còn đạt tỷ lệ 49%, mặc dù OpenAI lưu ý rằng Claude có thể đạt điểm cao nhờ khả năng tạo ra đồ họa bắt mắt hơn là hiệu suất thuần túy.

Hình ảnh robot với bàn tay đang gõ bàn phím máy tính
Create Image: sompong_tom / Getty Images

AI Thay Đổi Cách Chúng Ta Làm Việc

Mặc dù những con số này ấn tượng, OpenAI thừa nhận rằng GDPval-v0 hiện chỉ bao gồm một số lượng rất hạn chế các tác vụ mà con người thực hiện trong công việc thực tế. Điều này có nghĩa là AI sẽ không ngay lập tức thay thế con người trong công việc. Thay vào đó, nó đang định hình lại vai trò của chúng ta, giúp chúng ta tập trung vào những khía cạnh có giá trị cao hơn.

Tiến sĩ Aaron Chatterji, nhà kinh tế trưởng của OpenAI, chia sẻ rằng kết quả của GDPval cho thấy con người trong các công việc này có thể ngày càng sử dụng AI để giảm tải một số công việc và dành thời gian cho những nhiệm vụ có giá trị cao hơn. Hãy tưởng tượng một tương lai nơi AI xử lý các tác vụ lặp đi lặp lại, cho phép chúng ta phát huy tối đa sự sáng tạo, tư duy chiến lược và khả năng giải quyết vấn đề phức tạp.

Biểu đồ so sánh hiệu suất AI và con người trong các công việc khác nhau
Credit Image: OpenAI

Tốc độ Phát Triển Đáng Kinh Ngạc và Tầm Nhìn Tương Lai

Tejal Patwardhan, trưởng nhóm đánh giá của OpenAI, bày tỏ sự phấn khởi trước tốc độ tiến bộ của GDPval. Chỉ 15 tháng trước, mô hình GPT-4o của OpenAI chỉ đạt 13.7% (thắng và hòa với con người). Giờ đây, GPT-5 đã đạt gần gấp ba con số đó, một xu hướng mà Patwardhan tin rằng sẽ tiếp tục. Tốc độ này cho thấy tiềm năng to lớn của AI trong việc liên tục học hỏi và cải thiện.

Khi các mô hình AI ngày càng hoàn thiện, nhu cầu về các tiêu chuẩn đánh giá chính xác và thực tế hơn trở nên cấp thiết. Các bài kiểm tra truyền thống như AIME 2025 (toán học) và GPQA Diamond (khoa học cấp độ Tiến sĩ) đang dần đạt đến điểm bão hòa. Vì vậy, các bài kiểm tra như GDPval, có khả năng đo lường năng lực của AI trong các tác vụ đời thực, sẽ ngày càng trở nên quan trọng. OpenAI đang đặt nền móng cho một kỷ nguyên mới, nơi AI không chỉ là một công cụ mà là một phần không thể thiếu trong mọi hoạt động kinh tế, mở ra một tương lai đầy hứa hẹn cho sự hợp tác giữa con người và trí tuệ nhân tạo.

MagicFlow | TechData.AI

Scroll to Top