全自动数据分析可视化 Agent
扔一张 PDF 报表或者一张表格图:DeepSeek-OCR 读成结构化数据,FastAPI 后端跑分析,自动生成图表。OCR / 分析 / 可视化三层独立可替换。
在一张样例财报表格上复演三层系统:ocr_service 解析表结构,analysis_service 算 KPI + LLM 摘要,visualization_service 让 LLM 选图表类型再渲染。
本地版本说明
这是用真实项目的架构(core/ocr · core/analysis · core/visualization,由 integration_service 串起)做的复演,不调真实 vLLM/LLM。样例表格、KPI、图表选型展示的是每层真实行为。
运行三层数据分析管线
在一张样例财报表格上复演 OCR → 分析 → 可视化:每层是一个独立 service + core,integration_service 串起来。
输入文档
2024 年各季度营收财报(PDF 截图)
ocr_service → core/ocr (DeepSeek-OCR-2 · vLLM)
Table-structure parse → cells with row/col coordinates, not flat text.
analysis_service → core/analysis (pandas + LLM)
Stats over the structured table, then an LLM summary → {summary, kpis, anomalies}.
visualization_service → core/visualization
LLM first picks the chart type, then the matching renderer draws it.
可替换性
换 OCR 引擎只改 core/ocr/,service 接口不变;加新图表只丢一个 renderer 进 core/visualization/。
执行日志
运行管线,看一份 PDF 表格如何变成图表。
建议体验
运行管线,看一张 PDF 表格依次变成结构化单元格、KPI、图表。
注意 OCR 延迟徽标——vLLM 把 DeepSeek-OCR-2 压到 0.6s/页,裸 transformers 约 3s。
注意图表类型是 LLM 先选定再渲染,而不是硬编码 if-else。
这个试玩能说明什么
你能构建分层 AI 系统——OCR / 分析 / 可视化各为独立 service + core,不是 monolith。
你按任务选 OCR:表结构感知(DeepSeek-OCR-2)在财报/科研表格上碾压纯文本 OCR。
你关注推理延迟,用 vLLM 上线而不是裸 transformers。
架构
ocr_service · analysis_service · visualization_service · integration_service
OCR 延迟
DeepSeek-OCR-2 跑 vLLM:约 0.6s/页(裸 transformers ~3s)
最强信号
可替换分层 + 面向实时循环的延迟意识