Vào thứ Tư, Google đã ra mắt mô hình AI (trí tuệ nhân tạo) tổng hợp đa phương thức mới, Gemini, để cạnh tranh với các sản phẩm từ OpenAI, Microsoft và Meta.
trình diễn
Google ra mắt mô hình AI mạnh mẽ nhất của mình, Gemini
Theo gã khổng lồ tìm kiếm, Gemini là mô hình ngôn ngữ lớn (LLM) ‘lớn nhất và có khả năng nhất’ mà công ty từng xây dựng, với hiệu suất vượt trội trên nhiều tiêu chuẩn hàng đầu.
Được phát triển bởi đơn vị AI DeepMind của Google, mô hình AI linh hoạt này được đào tạo trên Bộ xử lý Tensor (TPU) của Google, giúp mô hình này chạy nhanh hơn đáng kể so với các mô hình nhỏ hơn và kém năng lực hơn trước đó. Nó có thể khái quát hóa và hiểu, vận hành và kết hợp các loại thông tin khác nhau một cách liền mạch, bao gồm văn bản, mã, âm thanh, hình ảnh và video.
Google mang đến Gemini 1.0, phiên bản đầu tiên, với ba kích cỡ khác nhau: Gemini Ultra, phiên bản lớn nhất và có khả năng nhất cho các tác vụ có độ phức tạp cao; Gemini Pro, mô hình tốt nhất để mở rộng quy mô trên nhiều nhiệm vụ; và Gemini Nano, mẫu máy hiệu quả nhất dành cho các tác vụ trên thiết bị.
“Đây là những mô hình đầu tiên của kỷ nguyên Song Tử và là sự hiện thực hóa đầu tiên về tầm nhìn mà chúng tôi có khi thành lập Google DeepMind vào đầu năm nay. Kỷ nguyên mới của các mô hình này thể hiện một trong những nỗ lực khoa học và kỹ thuật lớn nhất mà chúng tôi đã thực hiện với tư cách là một công ty,” Sundar Pichai, Giám đốc điều hành của Google và Alphabet, cho biết trong một ghi chú trên bài đăng trên blog về thông báo này.
Theo Google DeepMind, Gemini Ultra vượt trội hơn GPT-4 ở 30 trong số 32 bài kiểm tra điểm chuẩn học thuật được sử dụng rộng rãi để đo lường các khả năng như hiểu hình ảnh hoặc suy luận toán học.
Đặc biệt, Google cho biết điểm của Gemini Ultra là 90% trên MMLU (hiểu ngôn ngữ đa nhiệm lớn), sử dụng kết hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả kiến thức thế giới và vấn đề- khả năng giải quyết, khiến nó trở thành mô hình AI đầu tiên vượt qua các chuyên gia về con người ở tiêu chuẩn đó.
Hơn nữa, Google cho biết Gemini Ultra đạt 59,4% điểm chuẩn MMMU mới, bao gồm các nhiệm vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi phải suy luận có chủ ý. Nó thậm chí còn vượt trội so với các mẫu trước đó về điểm chuẩn hình ảnh mà không cần sự hỗ trợ từ hệ thống nhận dạng ký tự quang học (OCR) vốn trích xuất văn bản từ hình ảnh để xử lý thêm.
Sự sẵn có của Gemini AI
Google cho biết phiên bản Pro hiện đã có sẵn trong chatbot Bard và sẽ có sẵn bằng tiếng Anh ở hơn 170 quốc gia và vùng lãnh thổ, với kế hoạch mở rộng sang các phương thức khác nhau và sớm hỗ trợ các ngôn ngữ và địa điểm mới. Bắt đầu từ ngày 13 tháng 12, các nhà phát triển và khách hàng doanh nghiệp sẽ có thể truy cập Gemini Pro thông qua API Gemini trong Google AI Studio hoặc Google Cloud Vertex AI.
Hơn nữa, Google cũng sẽ đưa Gemini Nano lên điện thoại thông minh Pixel 8 Pro và có kế hoạch tích hợp Gemini theo thời gian vào Tìm kiếm, Quảng cáo, Chrome và các dịch vụ khác trong những tháng tới. Ngoài ra, các nhà phát triển Android sẽ có quyền truy cập vào Gemini Nano thông qua AICore, một tính năng hệ thống mới có sẵn trong Android 14, bắt đầu trên các thiết bị Pixel 8 Pro, sẽ có sẵn trên một cơ sở xem trước sớm.
Cuối cùng, Google có kế hoạch phát hành phiên bản tiên tiến nhất của mô hình AI, Gemini Ultra, thông qua Bard Advanced bắt đầu từ đầu năm 2024. Phiên bản này sẽ có sẵn cho một số khách hàng, nhà phát triển, đối tác cũng như các chuyên gia về an toàn và trách nhiệm “để thử nghiệm và phản hồi sớm” trước khi nó được triển khai cho các nhà phát triển và khách hàng doanh nghiệp vào đầu năm tới.