Vào ngày 16 tháng 4 năm 2025, OpenAI đã chính thức giới thiệu hai mô hình suy luận AI mới đầy đột phá mang tên o3 và o4-mini. Đây là một bước tiến vượt bậc trong khả năng AI của công ty, mà có lẽ không đâu thể hiện rõ ràng hơn ngoài năng lực suy luận hình ảnh hoàn toàn mới của chúng. Các mô hình này hứa hẹn sẽ thay đổi cách chúng ta tương tác với công nghệ, mở ra những khả năng ứng dụng AI vô cùng phong phú và chuyên sâu.
Khả năng “Tư Duy Bằng Hình Ảnh” Đột Phá của Các Mô Hình Mới
OpenAI cho biết các mô hình mới này có thể diễn giải bất kỳ hình ảnh nào mà bạn tải lên, dù đó là một bản phác thảo trên bảng trắng, biểu đồ trong sách giáo khoa, hay một tệp PDF đồ họa. Theo thông báo chính thức về việc ra mắt OpenAI o3 và o4-mini, công ty chia sẻ:
“Chúng không chỉ nhìn thấy một hình ảnh—chúng suy nghĩ cùng với hình ảnh đó. Điều này mở khóa một lớp giải quyết vấn đề mới, pha trộn giữa suy luận hình ảnh và văn bản, được thể hiện qua hiệu suất vượt trội của chúng trên các tiêu chuẩn đa phương thức hiện đại.”
Khả năng phân tích hình ảnh được tích hợp vào chuỗi suy luận mà các mô hình thực hiện. Các mô hình AI này có thể phóng to, xoay hoặc cắt hình ảnh để cải thiện quá trình xử lý. Đáng chú ý, chúng cũng xử lý tốt ngay cả với những hình ảnh có chất lượng thấp.
Ví dụ, khi giải quyết một vấn đề khoa học liên quan đến sơ đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, chạy các phép tính bằng Python, sau đó tạo ra một biểu đồ để giải thích những phát hiện của mình.
ChatGPT o4-mini phân tích và mô tả hình ảnh phức tạp
Tích Hợp Công Cụ Đa Dạng và Khả Năng Tự Động (Agentic Capability)
Trong quá trình suy luận, o3 và o4-mini có thể linh hoạt sử dụng tất cả các công cụ ChatGPT có sẵn, bao gồm duyệt web, thực thi mã Python và tạo hình ảnh. Khả năng “Agentic” này cho phép chúng tự động sử dụng công cụ ChatGPT lý tưởng nhất cho một tác vụ cụ thể. Người dùng và nhà phát triển giờ đây có thể thực hiện các quy trình làm việc đa bước và giải quyết các nhiệm vụ phức tạp một cách hiệu quả hơn.
Phiên bản o4-mini-high là một biến thể của o4-mini, được tối ưu để dành nhiều thời gian và tài nguyên tính toán hơn cho mỗi yêu cầu, nhằm mang lại kết quả chất lượng cao hơn. Một số kịch bản ứng dụng phổ biến có thể bao gồm:
- Sinh học, kỹ thuật và các lĩnh vực STEM: Tạo và đánh giá các nghiên cứu, cung cấp suy luận chi tiết từng bước và giải thích trực quan.
- Phân tích kinh doanh: Tìm kiếm và tổng hợp thông tin từ nhiều nguồn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ để tạo ra các phân tích chuyên sâu.
Các mô hình này đã được đào tạo thông qua phương pháp học tăng cường (reinforcement learning), một khái niệm chủ chốt trong AI. Giờ đây, chúng có thể xử lý các vấn đề “mờ” tốt hơn, vì chúng có khả năng suy luận khi nào nên sử dụng một công cụ cụ thể để đạt được kết quả mong muốn.
Các mô hình o3, o4-mini và o4-mini-high đã có sẵn cho tất cả người dùng có tài khoản ChatGPT Plus, Pro và Team. Phiên bản o3-pro dự kiến sẽ ra mắt trong những tuần tới. Bạn có thể tìm thấy chúng trong menu lựa chọn mô hình.
Người dùng miễn phí cũng có thể trải nghiệm mô hình o4-mini bằng cách chọn tùy chọn “Think” trong trình soạn thảo trước khi gửi yêu cầu của mình.
Tầm Quan Trọng Của Khả Năng Đa Phương Thức Trên ChatGPT
Với việc cho phép AI “suy nghĩ bằng hình ảnh”, các mô hình mới của OpenAI có thể giải quyết các vấn đề thực tế đòi hỏi sự diễn giải cả văn bản và hình ảnh. Điều này bao gồm việc gỡ lỗi mã từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích các biểu đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là, ChatGPT đã trở nên nhận biết ngữ cảnh (context-aware) hơn đáng kể.
Các mô hình này hiện nay đã tự chủ hơn. Chúng cũng có thể hiệu quả hơn, tự động điều chỉnh một mô hình cụ thể cho một tác vụ. Khi các tác nhân AI tự động (AI agents) này có thể xử lý các tác vụ phức tạp, đa bước, khả năng suy luận và trí tuệ trực quan của chúng trở nên cực kỳ quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.
Tham khảo: