深度学习与大模型学习路径
首页
LLM 与 Agent
技术文章
深度学习
机器学习
GitHub
多模态阅读索引
这个主题关注视觉语言模型、文档理解、视频理解、多模态 Agent 和真实业务中的多模态数据流。
当前关注方向
VLM 基础能力:图像理解、OCR、视觉问答。
文档理解:PDF、表格、截图、版面结构。
多模态 Agent:视觉观察、工具操作、浏览器或桌面环境。
评估:视觉 grounding、引用、定位、误识别。
阅读前置
多模态总览
CLIP
BLIP
LLaVA
待补充
后续月度精选中,优先补充:
VLM 官方技术报告。
文档理解和表格抽取工程复盘。
多模态 Agent 的安全和评估文章。
多模态 RAG 的实际案例。