Google ra Gemini 2.0 tạo nội dung đa phương thức
Google phát hành mô hình Gemini 2.0, cải thiện hiệu năng so với bản 1.5, hỗ trợ đầu ra đa phương thức, gồm hình ảnh, âm thanh gốc và đa ngôn ngữ.
"Nếu Gemini 1.0 là sắp xếp và hiểu thông tin, Gemini 2.0 sẽ làm thông tin trở nên hữu ích hơn nhiều", CEO Google Sundar Pichai nói trong bài giới thiệu Gemini 2.0 ngày 11/12.
Phiên bản đầu tiên của mô hình mới là Gemini 2.0 Flash, bắt đầu cho người dùng và nhà phát triển trải nghiệm trước. Theo giới thiệu, AI có tốc độ phản hồi nhanh gấp đôi bản 1.5 Pro. Sản phẩm cũng vượt trội ở nhiều tình huống sử dụng, trong đó khả năng viết code Python, Java, C++ đạt 92,9%, tăng so với mức 79,8 của 1.5 Flash; khả năng giải toán đạt 89,7%, hơn mức 77,9% trước đây. Tuy nhiên, khả năng hiểu bối cảnh dài lại giảm từ mức 71,9% xuống 69,2%.
Điểm đặc biệt của Gemini 2.0 Flash, theo Google, là khả năng tạo đầu ra nội dung gốc đa phương thức. Sản phẩm đầu ra có thể là văn bản, giọng nói, hình ảnh, chuyển văn bản thành giọng nói, và cho phép người dùng có thể tùy chỉnh giọng nói theo mong muốn.
"Cùng với những cải tiến như khả năng lý luận, hiểu ngữ cảnh dài, lập kế hoạch, hoặc làm theo hướng dẫn phức tạp, gọi hàm tổng hợp, chúng sẽ tạo trải nghiệm AI agent mới", Demis Hassabis, CEO của Google DeepMind, nhấn mạnh.
Trong buổi ra mắt, đại diện Google mô phỏng các tính năng, như đưa Gemini 2.0 vào Astra - một trợ lý AI của tương lai có thể hiểu bối cảnh thế giới thực, kết hợp Google Search, Lens và Maps và đưa ra phản hồi nhanh chóng. Một tác nhân AI khác sử dụng Gemini 2.0 có thể nhận biết thông tin trên màn hình của một trò chơi chiến thuật và gợi ý người dùng cách chơi để chiến thắng.
Gemini 2.0 Flash hiện có sẵn dưới dạng mô hình thử nghiệm cho nhà phát triển thông qua API Gemini trong Google AI Studio và Vertex AI. Ngoài ra, người dùng cũng có thể trải nghiệm qua chatbot Gemini, chọn bản 2.0 Flash. Google cho biết sẽ mở rộng ứng dụng cũng như mô hình khác của Gemini 2.0 vào tháng 1/2025.
"Chúng tôi đã đạt được một cột mốc thú vị trong kỷ nguyên Gemini. Chúng tôi mong muốn tiếp tục khám phá một cách an toàn tất cả khả năng mới trong quá trình hướng tới AGI", Hassabis nói.
Google ra mắt Gemini 1.0 vào tháng 12/2023, chạy đua với GPT của OpenAI. Theo CEO Sundar Pichai, các ứng dụng của Gemini đã có hai tỷ người dùng. Tính năng AI Overviews tích hợp trên Google Search có một tỷ người dùng.
الانضمام إلى المحادثة