AI新工具
banner

R1-OneVision


介绍:

R1-OneVision是一个开源的多模态大语言模型,具备强大的推理能力,在视觉推理任务中表现出色。









R1-OneVision

R1-OneVision是一个开源的多模态大型语言模型,专注于深度推理能力。它融合了视觉和文本数据,能够对多模态信息进行精确解读,在数学、科学、深度图像理解和逻辑推理等领域表现出色。该模型基于Qwen2.5-VL进行微调,并在R1-OneVision数据集上训练,该数据集整合了LLaVA-OneVision和其他领域特定数据集,包含自然场景、科学问题、数学题、OCR内容和复杂图表等多种类型,旨在提升模型的深度推理能力。

R1-OneVision的性能在Mathvision、Mathverse和R1-Onevision-Bench基准测试中均优于Qwen2.5-VL-7B和GPT-4V,展现了其强大的多模态推理能力。 它的使用场景非常广泛,可以作为强大的AI助手,解决跨不同领域的各种问题,例如:解答结合图像的科学或数学问题,理解复杂的图表信息,以及进行基于图像和文本的逻辑推理等。 目前已发布了3B、7B和72B三个参数规模的模型。 项目由浙江大学的研究人员开发。

<<<<<<< HEAD ======= 可扫如下微信二维码加好友 >>>>>>> HEAD@{1}

广告:私人定制视频文本提取,字幕翻译制作等,欢迎联系QQ:86911638