多模态阅读索引

这个主题关注视觉语言模型、文档理解、视频理解、多模态 Agent 和真实业务中的多模态数据流。

当前关注方向

VLM 基础能力：图像理解、OCR、视觉问答。
文档理解：PDF、表格、截图、版面结构。
多模态 Agent：视觉观察、工具操作、浏览器或桌面环境。
评估：视觉 grounding、引用、定位、误识别。

阅读前置

待补充

后续月度精选中，优先补充：

VLM 官方技术报告。
文档理解和表格抽取工程复盘。
多模态 Agent 的安全和评估文章。
多模态 RAG 的实际案例。