AI新工具

blog-thum
Video-to-Audio

本研究提出了一种视频转音频生成方法,实现语义与时间对齐的音频内容生成。

read more
blog-thum
SOLO

SOLO 是一种单一 Transformer 架构的统一视觉语言模型,接受图像和文本输入。

read more
blog-thum
Image Conductor

Image Conductor通过精确控制相机和物体的运动实现从单张图像生成交互视频。

read more
blog-thum
STORM

STORM是一种通过检索和多视角提问生成主题大纲的LLM系统。

read more