zalo-icon
facebook-icon
phone-icon
TechData.AI Logo
SILICON VALLEY BETS BIG ON ‘ENVIRONMENTS’ TO TRAIN AI AGENTS

Thung Lũng Silicon Đặt Cược Lớn Vào 'Môi Trường' Để Đào Tạo Đặc Vụ AI

Trong nhiều năm qua, các CEO của những tập đoàn công nghệ lớn đã chia sẻ tầm nhìn về các đặc vụ AI có khả năng tự động sử dụng ứng dụng phần mềm để hoàn thành công việc cho con người. Thế nhưng, khi trải nghiệm các đặc vụ AI phổ biến hiện nay như ChatGPT Agent của OpenAI hay Comet của Perplexity, bạn sẽ nhanh chóng nhận ra công nghệ này vẫn còn nhiều hạn chế. Để các đặc vụ AI trở nên mạnh mẽ và linh hoạt hơn, ngành công nghiệp đang khám phá một bộ kỹ thuật mới.

Một trong những kỹ thuật đầy hứa hẹn đó là việc mô phỏng cẩn thận các không gian làm việc, nơi các đặc vụ có thể được huấn luyện thực hiện các nhiệm vụ nhiều bước – được gọi là môi trường học tăng cường (RL environment). Giống như cách các bộ dữ liệu được gắn nhãn đã thúc đẩy làn sóng AI trước đây, môi trường RL đang dần trở thành yếu tố then chốt trong quá trình phát triển các đặc vụ AI.

Khuôn mặt robot AI và mã lập trình trên nền đen.
Hình ảnh: Khuôn mặt robot AI và mã lập trình trên nền đen. (Nguồn: Yuichiro Chino / Getty Images)

Các nhà nghiên cứu AI, nhà sáng lập và nhà đầu tư chia sẻ với TechCrunch rằng các phòng thí nghiệm AI hàng đầu hiện đang rất cần thêm nhiều môi trường RL, và có vô số startup đang sẵn sàng đáp ứng nhu cầu này.

Jennifer Li, đối tác chung tại Andreessen Horowitz, chia sẻ trong một cuộc phỏng vấn với TechCrunch: “Tất cả các phòng thí nghiệm AI lớn đều đang tự xây dựng môi trường RL. Nhưng bạn có thể hình dung, việc tạo ra những bộ dữ liệu này rất phức tạp, vì vậy các phòng thí nghiệm AI cũng đang tìm kiếm những nhà cung cấp bên thứ ba có thể tạo ra các môi trường và đánh giá chất lượng cao. Mọi người đều đang quan tâm đến lĩnh vực này.”

Làn sóng phát triển môi trường RL đã tạo ra một thế hệ startup mới được đầu tư mạnh mẽ, điển hình là Mechanize và Prime Intellect, những cái tên đang đặt mục tiêu dẫn đầu thị trường. Trong khi đó, các công ty gắn nhãn dữ liệu lớn như Mercor và Surge cũng đang tăng cường đầu tư vào môi trường RL để bắt kịp sự dịch chuyển của ngành công nghiệp từ dữ liệu tĩnh sang mô phỏng tương tác. Các phòng thí nghiệm lớn cũng đang cân nhắc đầu tư mạnh mẽ: theo The Information, lãnh đạo Anthropic đã thảo luận về việc chi hơn 1 tỷ USD cho môi trường RL trong năm tới.

Hy vọng của các nhà đầu tư và sáng lập là một trong số những startup này sẽ vươn lên trở thành “Scale AI của môi trường”, ám chỉ đến đế chế gắn nhãn dữ liệu trị giá 29 tỷ USD đã thúc đẩy kỷ nguyên chatbot.

Câu hỏi đặt ra là liệu môi trường RL có thực sự đẩy xa giới hạn tiến bộ của AI hay không.

Môi Trường Học Tăng Cường (RL Environment) Là Gì?

Về bản chất, môi trường RL là các sân chơi huấn luyện mô phỏng những gì một đặc vụ AI sẽ thực hiện trong một ứng dụng phần mềm thực tế. Một nhà sáng lập đã mô tả việc xây dựng chúng trong một cuộc phỏng vấn gần đây “giống như tạo ra một trò chơi điện tử rất nhàm chán.”

Chẳng hạn, một môi trường có thể mô phỏng trình duyệt Chrome và giao nhiệm vụ cho đặc vụ AI mua một đôi tất trên Amazon. Đặc vụ sẽ được đánh giá hiệu suất và nhận tín hiệu thưởng khi thành công (trong trường hợp này là mua được đôi tất phù hợp). Dù nhiệm vụ nghe có vẻ đơn giản, nhưng một đặc vụ AI có thể gặp rất nhiều khó khăn. Nó có thể lạc lối khi điều hướng các menu thả xuống trên trang web, hoặc mua quá nhiều tất. Và vì các nhà phát triển không thể dự đoán chính xác những lỗi lầm mà đặc vụ sẽ mắc phải, bản thân môi trường phải đủ mạnh mẽ để ghi nhận mọi hành vi bất ngờ và vẫn cung cấp phản hồi hữu ích. Điều này khiến việc xây dựng môi trường phức tạp hơn nhiều so với một bộ dữ liệu tĩnh.

Một số môi trường được thiết kế khá công phu, cho phép các đặc vụ AI sử dụng công cụ, truy cập internet hoặc vận hành nhiều ứng dụng phần mềm khác nhau để hoàn thành một nhiệm vụ nhất định. Các môi trường khác lại chuyên biệt hơn, tập trung giúp đặc vụ học các tác vụ cụ thể trong ứng dụng phần mềm doanh nghiệp.

Dù môi trường RL đang là xu hướng nóng bỏng tại Thung lũng Silicon hiện nay, kỹ thuật này đã có tiền lệ từ lâu. Một trong những dự án đầu tiên của OpenAI vào năm 2016 là xây dựng “RL Gyms”, rất tương đồng với khái niệm môi trường hiện đại. Cùng năm đó, hệ thống AI AlphaGo của Google DeepMind đã đánh bại một nhà vô địch cờ vây thế giới, và nó cũng sử dụng kỹ thuật RL trong một môi trường mô phỏng.

Điều đặc biệt về môi trường ngày nay là các nhà nghiên cứu đang cố gắng xây dựng các đặc vụ AI biết sử dụng máy tính bằng các mô hình Transformer lớn. Không giống như AlphaGo – một hệ thống AI chuyên biệt hoạt động trong môi trường đóng, các đặc vụ AI ngày nay được huấn luyện để sở hữu khả năng tổng quát hơn. Các nhà nghiên cứu AI hiện có một điểm khởi đầu mạnh mẽ, nhưng cũng đối mặt với một mục tiêu phức tạp, nơi nhiều vấn đề có thể phát sinh.

Một Thị Trường Đầy Cạnh Tranh

Các công ty gắn nhãn dữ liệu AI như Scale AI, Surge và Mercor đang nỗ lực nắm bắt thời cơ và phát triển môi trường RL. Những công ty này sở hữu nhiều tài nguyên hơn các startup nhỏ, cùng với mối quan hệ sâu sắc với các phòng thí nghiệm AI hàng đầu.

CEO Edwin Chen của Surge chia sẻ với TechCrunch rằng gần đây ông đã chứng kiến “sự gia tăng đáng kể” về nhu cầu đối với môi trường RL trong các phòng thí nghiệm AI. Theo ông, Surge – được biết là đã tạo ra 1,2 tỷ USD doanh thu năm ngoái từ việc hợp tác với các phòng thí nghiệm AI như OpenAI, Google, Anthropic và Meta – gần đây đã thành lập một tổ chức nội bộ mới chuyên trách xây dựng môi trường RL.

Theo sau Surge là Mercor, một startup trị giá 10 tỷ USD, cũng đã hợp tác với OpenAI, Meta và Anthropic. Mercor đang thuyết phục các nhà đầu tư về hoạt động kinh doanh xây dựng môi trường RL cho các tác vụ chuyên biệt như lập trình, y tế và luật, dựa trên tài liệu tiếp thị mà TechCrunch đã xem.

CEO Brendan Foody của Mercor phát biểu trong một cuộc phỏng vấn với TechCrunch rằng “rất ít người hiểu được cơ hội thực sự lớn đến mức nào xung quanh môi trường RL.”

Scale AI từng thống trị lĩnh vực gắn nhãn dữ liệu, nhưng đã mất dần vị thế kể từ khi Meta đầu tư 14 tỷ USD và tuyển dụng CEO của họ. Kể từ đó, Google và OpenAI đã ngừng hợp tác với Scale AI như một nhà cung cấp dữ liệu, và startup này thậm chí còn đối mặt với sự cạnh tranh ngay trong nội bộ Meta đối với công việc gắn nhãn dữ liệu. Tuy nhiên, Scale vẫn đang nỗ lực để bắt kịp xu hướng và xây dựng các môi trường.

Chetan Rane, Trưởng phòng sản phẩm đặc vụ và môi trường RL tại Scale AI, cho biết: “Đây chỉ là bản chất của ngành mà [Scale AI] đang tham gia. Scale đã chứng minh khả năng thích ứng nhanh chóng. Chúng tôi đã làm điều này từ những ngày đầu của xe tự hành, đơn vị kinh doanh đầu tiên của chúng tôi. Khi ChatGPT ra mắt, Scale AI đã thích nghi. Và giờ đây, một lần nữa, chúng tôi đang thích nghi với những không gian tiên phong mới như đặc vụ và môi trường.”

Một số đơn vị mới nổi lại tập trung hoàn toàn vào môi trường ngay từ đầu. Trong số đó có Mechanize, một startup được thành lập khoảng sáu tháng trước với mục tiêu táo bạo là “tự động hóa mọi công việc.” Tuy nhiên, đồng sáng lập Matthew Barnett chia sẻ với TechCrunch rằng công ty của ông đang bắt đầu với môi trường RL dành cho các đặc vụ AI viết mã.

Barnett cho biết Mechanize đặt mục tiêu cung cấp cho các phòng thí nghiệm AI một số lượng nhỏ các môi trường RL mạnh mẽ, thay vì các công ty dữ liệu lớn tạo ra nhiều môi trường RL đơn giản. Để làm được điều này, startup đang chào mời các kỹ sư phần mềm mức lương 500.000 USD để xây dựng môi trường RL – cao hơn rất nhiều so với thu nhập của một nhà thầu theo giờ tại Scale AI hay Surge.

Hai nguồn tin thân cận với TechCrunch tiết lộ Mechanize đã và đang hợp tác với Anthropic về các môi trường RL. Mechanize và Anthropic từ chối bình luận về mối quan hệ đối tác này.

Các startup khác lại đặt cược rằng môi trường RL sẽ có ảnh hưởng vượt ra ngoài các phòng thí nghiệm AI. Prime Intellect – một startup được hỗ trợ bởi nhà nghiên cứu AI Andrej Karpathy, Founders Fund và Menlo Ventures – đang nhắm đến các nhà phát triển nhỏ hơn với các môi trường RL của mình.

Tháng trước, Prime Intellect đã ra mắt một trung tâm môi trường RL, với mục tiêu trở thành “Hugging Face cho môi trường RL”. Ý tưởng là cung cấp cho các nhà phát triển mã nguồn mở quyền truy cập vào các tài nguyên tương tự mà các phòng thí nghiệm AI lớn đang có, và bán quyền truy cập vào tài nguyên tính toán cho những nhà phát triển đó.

Theo nhà nghiên cứu Will Brown của Prime Intellect, việc huấn luyện các đặc vụ có khả năng tổng quát trong môi trường RL có thể tốn kém hơn về mặt tính toán so với các kỹ thuật huấn luyện AI trước đây. Bên cạnh các startup xây dựng môi trường RL, đây còn là cơ hội lớn cho các nhà cung cấp GPU, những đơn vị có thể cung cấp sức mạnh cho quá trình này.

Brown chia sẻ trong một cuộc phỏng vấn: “Môi trường RL sẽ quá rộng lớn để bất kỳ một công ty nào có thể thống trị. Một phần công việc của chúng tôi là cố gắng xây dựng cơ sở hạ tầng mã nguồn mở tốt xung quanh nó. Dịch vụ chúng tôi cung cấp là điện toán, vì vậy nó là một con đường thuận tiện để sử dụng GPU, nhưng chúng tôi đang suy nghĩ về điều này một cách dài hạn hơn.”

Liệu Có Khả Năng Mở Rộng?

Câu hỏi còn bỏ ngỏ về môi trường RL là liệu kỹ thuật này có thể mở rộng quy mô như các phương pháp huấn luyện AI trước đây hay không.

Học tăng cường đã thúc đẩy một số bước nhảy vọt lớn nhất trong AI suốt một năm qua, bao gồm các mô hình như o1 của OpenAI và Claude Opus 4 của Anthropic. Đây là những đột phá đặc biệt quan trọng bởi vì các phương pháp được sử dụng trước đây để cải thiện mô hình AI hiện đang cho thấy hiệu suất giảm dần.

Các môi trường là một phần trong canh bạc lớn hơn của các phòng thí nghiệm AI vào RL, mà nhiều người tin rằng sẽ tiếp tục thúc đẩy tiến bộ khi họ bổ sung thêm dữ liệu và tài nguyên tính toán vào quy trình. Một số nhà nghiên cứu OpenAI đứng sau o1 trước đây đã chia sẻ với TechCrunch rằng công ty ban đầu đầu tư vào các mô hình suy luận AI – được tạo ra thông qua đầu tư vào RL và tính toán trong thời gian thử nghiệm – vì họ nghĩ rằng nó sẽ mở rộng tốt.

Cách tốt nhất để mở rộng RL vẫn chưa rõ ràng, nhưng các môi trường dường như là một ứng cử viên đầy hứa hẹn. Thay vì chỉ đơn thuần thưởng cho các chatbot dựa trên phản hồi văn bản, chúng cho phép các đặc vụ hoạt động trong các mô phỏng với các công cụ và máy tính sẵn có. Điều này tốn kém tài nguyên hơn nhiều, nhưng tiềm năng mang lại lợi ích cũng lớn hơn.

Một số người hoài nghi về việc liệu tất cả các môi trường RL này có thành công hay không. Ross Taylor, cựu trưởng nhóm nghiên cứu AI của Meta và đồng sáng lập General Reasoning, chia sẻ với TechCrunch rằng môi trường RL dễ bị “thao túng phần thưởng”. Đây là quá trình mà các mô hình AI gian lận để nhận được phần thưởng mà không thực sự hoàn thành nhiệm vụ.

Taylor nói: “Tôi nghĩ mọi người đang đánh giá thấp mức độ khó khăn khi mở rộng môi trường. Ngay cả những môi trường [RL] có sẵn tốt nhất cũng thường không hoạt động nếu không có sự điều chỉnh đáng kể.”

Sherwin Wu, Trưởng bộ phận Kỹ thuật kinh doanh API của OpenAI, đã chia sẻ trong một podcast gần đây rằng ông “không mấy lạc quan” về các startup môi trường RL. Wu lưu ý rằng đây là một lĩnh vực rất cạnh tranh, và nghiên cứu AI đang phát triển quá nhanh khiến việc phục vụ tốt các phòng thí nghiệm AI trở nên khó khăn.

Karpathy, một nhà đầu tư vào Prime Intellect và từng gọi môi trường RL là một bước đột phá tiềm năng, cũng đã bày tỏ sự thận trọng đối với lĩnh vực RL nói chung. Trong một bài đăng trên X, ông đã nêu lên những lo ngại về việc liệu AI có thể tiến xa hơn bao nhiêu từ RL.

Karpathy phát biểu: “Tôi lạc quan về môi trường và tương tác của đặc vụ, nhưng tôi không mấy lạc quan về học tăng cường nói riêng.”

Cập nhật: Phiên bản trước của bài viết này đã gọi Mechanize là Mechanize Work. Bài viết đã được cập nhật để phản ánh tên chính thức của công ty.

Tổng hợp bởi MagicFlow | TechData.AI

Scroll to Top