Công ty khởi nghiệp OpenAI được Microsoft hậu thuẫn gần đây đã bổ sung các khả năng thoại và hình ảnh cho chatbot ChatGPT dựa trên AI tổng quát của mình, giờ đây sẽ cho phép nó nhìn, nghe và nói.
Những khả năng này cung cấp một loại giao diện mới, trực quan hơn cho phép người dùng trò chuyện bằng giọng nói hoặc hiển thị ChatGPT những gì họ đang nói.
trình diễn
ChatGPT hiện có thể xem hình ảnh và nghe giọng nói của bạn
Chúng ta hãy xem các tính năng mới được thêm vào ChatGPT:
Tiếng nói
Giờ đây, người dùng có thể sử dụng giọng nói để tham gia cuộc trò chuyện qua lại với trợ lý AI. Được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói mới, ChatGPT giờ đây có thể tạo ra âm thanh giống con người chỉ từ văn bản và một vài giây lời nói mẫu.
OpenAI đã hợp tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra 5 lựa chọn giọng nói khác nhau, bao gồm cả giọng nam và giọng nữ. Nó cũng đã sử dụng Whisper, hệ thống nhận dạng giọng nói nguồn mở của mình, để chuyển lời nói của người dùng thành văn bản.
Để bắt đầu cuộc trò chuyện bằng giọng nói, hãy mở Cài đặt và nhấp vào “Tính năng mới” trên ứng dụng di động. Sau đó, chọn cuộc trò chuyện bằng giọng nói. Sau khi hoàn tất, hãy nhấn vào nút tai nghe nằm ở góc trên bên phải màn hình chính và chọn giọng nói ưa thích của bạn trong số năm tùy chọn giọng nói khác nhau.
Sử dụng giọng nói của bạn để tham gia vào cuộc trò chuyện qua lại với ChatGPT. Nói chuyện với nó khi đang di chuyển, yêu cầu kể chuyện trước khi đi ngủ hoặc giải quyết cuộc tranh luận trên bàn ăn tối.
Bật âm thanh 🔊 pic.twitter.com/3tuWzX0wtS
– OpenAI (@OpenAI) Ngày 25 tháng 9 năm 2023
Hình ảnh
ChatGPT hiện có thể phản hồi các hình ảnh do người dùng tải lên. Ví dụ: người dùng có thể chụp ảnh một địa danh khi đi du lịch để biết thêm thông tin chi tiết về nó hoặc gửi ảnh về tủ lạnh và tủ đựng thức ăn của họ, đồng thời trợ lý AI có thể đề xuất những món ăn nào có thể nấu cho bữa tối với các nguyên liệu có sẵn.
Điều này có thể thực hiện được nhờ khả năng hiểu hình ảnh, được hỗ trợ bởi GPT-3.5 và GPT-4 đa phương thức, áp dụng kỹ năng suy luận ngôn ngữ của chúng cho nhiều hình ảnh khác nhau, chẳng hạn như ảnh chụp, ảnh chụp màn hình và tài liệu chứa cả văn bản và hình ảnh.
Để bắt đầu, hãy nhấn vào nút ảnh để chụp hoặc chọn một hình ảnh. Trước tiên, bạn cần nhấn vào nút dấu cộng nếu bạn đang sử dụng thiết bị iOS hoặc Android. Ngoài ra, bạn có thể thảo luận nhiều hình ảnh hoặc sử dụng công cụ vẽ của OpenAI để hướng dẫn trợ lý AI của mình.
“Giọng nói và hình ảnh mang đến cho bạn nhiều cách hơn để sử dụng ChatGPT trong cuộc sống. Chụp ảnh một địa danh khi đi du lịch và trò chuyện trực tiếp về những điều thú vị về địa danh đó,” công ty công bố trong một bài đăng trên blog vào thứ Hai.
“Khi bạn ở nhà, hãy chụp ảnh tủ lạnh và tủ đựng thức ăn của bạn để tìm xem bữa tối sẽ có món gì (và đặt các câu hỏi tiếp theo để biết công thức từng bước). Sau bữa tối, hãy giúp con bạn giải một bài toán bằng cách chụp ảnh, khoanh tròn bộ bài tập và để bộ bài đó chia sẻ gợi ý với cả hai bạn.”
khả dụng
Trong hai tuần tới, các tính năng thoại và hình ảnh sẽ có sẵn cho khách hàng ChatGPT Plus và Enterprise. Mặc dù tính năng giọng nói sẽ có sẵn trên iOS và Android (chọn tham gia trong cài đặt của bạn), tính năng hình ảnh sẽ có sẵn trên tất cả các nền tảng.