Alibaba vừa mới thông báo về việc ra mắt Qwen2-VL! Cụ thể, họ mở mã nguồn Qwen2-VL-2B và Qwen2-VL-7B dưới giấy phép Apache 2.0, đồng thời cung cấp API cho phiên bản mạnh mẽ nhất của họ , Qwen2-VL-72B! Rất nhiều chỉ số vượt trội GPT-4o, Claude 3.5 sonnet, Gemini pro 1.5.
Qwen2-VL là phiên bản mới nhất của các mô hình ngôn ngữ thị giác của Alibaba, được xây dựng dựa trên nền tảng Qwen2. Nó bao gồm các tính năng sau:
Hiểu hình ảnh ở nhiều độ phân giải và tỷ lệ khác nhau đạt mức SoTA
Qwen2-VL đạt hiệu suất tốt nhất trên các bộ đánh giá chuẩn về hiểu thị giác, bao gồm MathVista, DocVQA, RealWorldQA, MTVQA, và nhiều bộ khác.
Qwen2-VL có khả năng hiểu video dài hơn 20 phút
Qwen2-VL có khả năng hiểu các video dài hơn 20 phút để thực hiện các tác vụ hỏi đáp, đối thoại, và tạo nội dung dựa trên video với chất lượng cao.
Tác tử có thể điều khiển điện thoại di động, robot và các thiết bị khác: với khả năng lập luận phức tạp và ra quyết định, Qwen2-VL có thể được tích hợp vào các thiết bị như điện thoại di động, robot và nhiều thiết bị khác để thực hiện các thao tác tự động dựa trên môi trường thị giác và hướng dẫn bằng văn bản.
Hỗ trợ đa ngôn ngữ
Để phục vụ người dùng toàn cầu, ngoài tiếng Anh và tiếng Trung, Qwen2-VL giờ đây hỗ trợ hiểu văn bản trong hình ảnh ở nhiều ngôn ngữ khác nhau, bao gồm hầu hết các ngôn ngữ châu Âu, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Việt và nhiều ngôn ngữ khác. Qwen2-VL đang là mô hình hiểu tiếng Việt tốt nhất tính tới thời điểm hiện tại.