你好,我是

专注于视频生成、图像生成与多模态 AI 研究,同时是一个热爱用 AI 创作短片的全能博主。

Full-Stack Builder🧠AI 研究者🎬内容创作者

AI 研究者 × Full-Stack Builder × 内容创作者

0+
开源项目
0+
年开发经验
0+
GitHub Stars
0+
技术文章

求职方向

AI Engineer / Machine Learning Engineer

研究领域

视频模型与视频生成图像生成时序模型多模态学习

三重身份

Full-Stack Builder

产品设计、算法研发、工程开发、测试部署,全链路能力

AI 研究者

深耕视频生成与多模态领域,追踪前沿论文与技术

内容创作者

编导剪辑全能,用 AI 制作短片,驾驶拍摄记录生活

跨领域的复合技能栈

当前求职技能画像

面向 Applied AI / GenAI 的 Full-Stack Builder,重点覆盖 LLM 微调、Agent 系统、RAG 架构与生产化后端能力,并以因果推断与效果评估作为差异化优势。

LangGraphMCP ProtocolGraphRAGQLoRAGRPO / DPOFastAPICausal Inference

LLM 与 GenAI 工程

聚焦模型接入、微调、对齐与推理优化,是我最适合放在求职材料前排的能力组合。

OpenAI / Claude / DeepSeek / Gemini / Qwen APIsvLLMSGLangLoRA / QLoRA fine-tuningGRPO / DPO alignmentUnslothLLaMA-FactoryKV Cache optimizationFlash AttentionMoE architecturesDeepSeek V3 / R1 techniquesHuggingFace Transformers

Agent 系统

偏向产品化落地的 Agent 编排、工具调用、工作流自动化与安全约束能力。

LangGraphOpenAI Agents SDKMCP Protocol (SSE / Stdio / HTTP)Function CallingReActMulti-agent orchestrationDifyCozeN8NGuardRails

RAG 与知识系统

覆盖检索增强、知识组织、查询改写与上下文工程,是我项目中出现频率最高的一条主线。

GraphRAGMilvusChromaDBFaissBGE / M3 embeddingsQuery TransformationRerankingMem0DSPy Context EngineeringRAGFlow

机器学习与多模态

把传统 ML、深度学习和多模态视觉能力放在一组,更贴近你现在的 Applied AI 画像。

PyTorchCNN ArchitecturesLSTM / GRU / InformerXGBoost / LightGBM / CatBoostOptunaFeature EngineeringModel FusionTransfer LearningCLIPVision Transformer (ViT)LLaVASwin TransformerOpenCVImage Augmentation

训练优化与 MLOps

强调训练并行、推理优化、服务化接口和部署支撑,方便招聘方理解你的工程深度。

DeepSpeed (ZeRO 1 / 2 / 3)DDP / FSDPTensor / Pipeline ParallelismMixed Precision (fp16 / bf16 / fp8)Megatron-LMTensorRTQuantization (GPTQ / AWQ / GGUF)NCCLFastAPIDocker / KubernetesLangSmithWandbPydanticSQLAlchemy / AlembicMongoDBGraphQL / RESTful API

因果推断与数据分析

这是最能拉开差距的一组能力,适合在 AI Engineer 之外补足“会衡量业务影响”的信号。

差异化优势
A/B TestingPSMDIDDMLDAGs / do-calculusIV / 2SLSSensitivity AnalysisRCT DesignSQL (Window Functions / CTEs / Joins)PandasNumPyTableauRFM / AARRR / Funnel / Cohort AnalysisBusiness Metrics

全栈 AI 平台、文档智能系统与模型训练工作流

多模型 AI Studio
平台精选案例

多模型 AI Studio

统一接入云端与本地大模型的全栈 AI 平台,支持会话、流式响应、多模态输入与批量推理。

ReactTypeScriptFastAPISSELLM Platform
多模态文档 RAG 平台
文档智能精选案例

多模态文档 RAG 平台

围绕 PDF 解析、向量检索和文档问答构建的多模态 RAG 系统,强调上传、检索和对话的一体化体验。

ReactFastAPILangChainMilvusRAG
CLIP 跨模态检索 RAG
文档智能

CLIP 跨模态检索 RAG

CLIP 把文本和图片编码进同一个 512 维空间,于是文搜图 / 图搜图成立。基于 LlamaIndex 从 CLIP MVP 做到 VLM 图片描述 + BM25 混合检索(RRF 融合),Milvus 持久化。

CLIPLlamaIndexMultimodalMilvusRRF
结构化抽取与问答平台
文档智能

结构化抽取与问答平台

把结构化信息抽取、向量检索与有依据问答整合在一起,适用于放射报告、药物信息、金融与新闻等文档场景。

FastAPIQdrantChromaLangChainDeepSeek
垂直领域 Agentic-GraphRAG
Agent精选案例

垂直领域 Agentic-GraphRAG

不堆 Neo4j:LangExtract 抽实体+关系建成 Python dict 知识图谱,配 Chroma 向量库,让一个 3 工具 Agent 自己选 向量 / 图谱 / 混合 检索,还能沿关系多跳。抽取带 char_interval 可溯源。

LangExtractGraphRAGLangChainDeepSeekKnowledge Graph
企业私有化 NL2SQL 微调系统
模型训练精选案例

企业私有化 NL2SQL 微调系统

从数据库元数据出发生成训练样本,配套数据构造、训练、校验与评估流程,用于企业私有化 SQL 问答能力建设。

LoRAQLoRAFastAPIWebSocketSQL
NL2SQL 数据分析 Agent
Agent

NL2SQL 数据分析 Agent

基于 Vanna 改造的 ReAct Agent:把一句中文问题转成 SQL、查 MySQL、回表格 + 图表 + 解释。准头靠 RAG——从 DDL / 业务文档 / 历史 SQL 三个 Milvus 集合并行检索。

LangChainVannaJina EmbeddingsMilvusNL2SQL
函数调用 Agent 偏好优化流水线
Agent

函数调用 Agent 偏好优化流水线

围绕 function calling 代理构建数据生成、偏好对构造和评估流程,用于提升工具选择与参数调用质量。

DPOFunction CallingEvaluationFastAPIAgents
Qwen3-VL 视觉强化学习实战(Unsloth + GSPO)
强化学习精选案例

Qwen3-VL 视觉强化学习实战(Unsloth + GSPO)

单张消费级 GPU 上用 Unsloth + GSPO 对 Qwen3-VL 8B 做视觉强化学习,在 MathVista 看图解数学题上优化推理格式与数值答案,格式合规率从 77% 提到 84%。

Qwen3-VLGSPOUnslothLoRATRLMathVista
GRPO 推理强化训练器(GSM8K · Qwen2.5-0.5B)
强化学习精选案例

GRPO 推理强化训练器(GSM8K · Qwen2.5-0.5B)

用 TRL 的 GRPOTrainer 在 Qwen2.5-0.5B 上复现 DeepSeek-R1 的 GRPO 算法,靠 5 个可验证奖励,在 GSM8K 上把模型从「直接给答案」教成「先推理再作答」。单卡可跑。

GRPOTRLDeepSeek-R1GSM8KQwen2.5
veRL PPO 强化学习训练
强化学习

veRL PPO 强化学习训练

用字节开源的 veRL(HybridFlow) 单卡对 Qwen2.5-0.5B 跑经典 PPO:Actor/Critic/Reference/Reward 四模型 + Ray 编排,GSM8K 上用规则奖励(正则 ####)。配套 InstructGPT 三阶段 RLHF 精读。

veRLPPORLHFRayvLLM
从 0 训练 LLaMA
模型训练精选案例

从 0 训练 LLaMA

不调 API、不加载权重,用 PyTorch 从零复刻 LLaMA 的 decoder-only 架构(RMSNorm / RoPE / GQA / SwiGLU / KV 缓存)并训练。理解大模型的地基。

LLaMATransformerRoPERMSNormPyTorch
通用 AI 文档审核 Agent v2.0
Agent精选案例

通用 AI 文档审核 Agent v2.0

全栈文档审核系统:上传 PDF,MinerU 解析 + LangChain v1.1 + DeepSeek 逐段检测语法错误和绝对化表述,问题实时流式标注回 PDF 原位,支持自定义规则和人工在环复核。

LangChainFastAPIReactDeepSeekMinerUSSE
OpenClaw Skill 开发实战
开发工具

OpenClaw Skill 开发实战

吃透 OpenClaw 的 Skill 扩展机制(用 SKILL.md 而非代码插件教 Agent 用工具),从零做出完整可用的 Daily Briefing Skill,并用 Lobster 工作流把搜索→总结→审批→推送串成可靠管线。

OpenClawAgent SkillsSKILL.mdLobsterBash
Harness Engineering 实战
开发工具精选案例

Harness Engineering 实战

Agent 产出质量 = 模型能力 × 设计水平。设计 Agent 运行时环境的四大支柱(代码库即真相源 / 机械化约束 / 反馈循环 / 熵管理)。实测:模型不变,光靠 Harness 把 Terminal Bench 从 52.8% 拉到 66.5%。

Harness EngineeringClaude CodeHooksAgent Runtime
Agent 长短期记忆系统
Agent

Agent 长短期记忆系统

短期 SessionManager(截断 MAX_HISTORY=20 + 滚动摘要) + 长期 MEMORY.md(超 2000 token 切 RAG),由 MemoryManager 调度中枢统一;生产层换成 mem0(LLM 裁判 ADD/UPDATE/DELETE/NONE)+ Milvus。

mem0MilvusLangChainLlamaIndexMemory
上下文工程中间件
Agent

上下文工程中间件

抗 Context Rot:六大上下文模块 × 五大策略(Write/Select/Compress/Isolate/Cache),全部落成可叠加的 LangChain middleware,按「先 Cache(省 90%) 后 Isolate」优先级用。

Context EngineeringLangChainMiddlewarePrompt Cache
OpenClaw 多智能体编排
Agent

OpenClaw 多智能体编排

多智能体归约到三个 MCP 原语(spawn/send/history),上面长出 6 种协作模式(Hub-Spoke/Pipeline/Hierarchical/Routing/P2P/Fleet)。理解 Hub 单向派发、sessions_send 子层禁用、P2P 生产零案例的根因。

OpenClawMulti-AgentMCPHub-SpokeOrchestration
企业级自动化调研系统(DeepResearch · Dify)
Agent精选案例

企业级自动化调研系统(DeepResearch · Dify)

基于 Dify 低代码 workflow 的自动调研系统:意图判断 → 主题拆解 → ReAct Agent 用 Tavily 迭代检索抽取带出处的证据 → DeepSeek/通义写成带脚注引用的 Markdown 报告。

DifyDeepSeekQwenTavilyReActWorkflow
Dify 长文案编写 Agent
Agent

Dify 长文案编写 Agent

用 Dify advanced-chat workflow 把「写长文」拆成可控的迭代循环:先大纲、再分段扩写、最后跑风格校验工具,每一步独立可观察可干预。

DifyDeepSeekWorkflowIteration
全自动数据分析可视化 Agent
文档智能

全自动数据分析可视化 Agent

扔一张 PDF 报表或者一张表格图:DeepSeek-OCR 读成结构化数据,FastAPI 后端跑分析,自动生成图表。OCR / 分析 / 可视化三层独立可替换。

DeepSeek-OCRvLLMData AnalysisVisualizationFastAPI
多模态模型微调(中文图表 VQA)
模型训练

多模态模型微调(中文图表 VQA)

LlamaFactory + 中文图表数据集 zh.train,把通用 VLM 微调成能读懂中文柱状/折线/饼图并回答问题的垂直模型。数据构造工具是配套 React + FastAPI 项目。

MultimodalLlamaFactoryQwen-VLChart VQAFine-tuning
多模态视觉大模型(PandaGPT)
模型训练精选案例

多模态视觉大模型(PandaGPT)

ImageBind 把 6 模态(图/文/音/深度/热成像/IMU)绑进同一向量空间,1 个线性投影接到 Vicuna —— PandaGPT 只训图文却涌现理解音频/深度。配套 VPT 视觉提示微调做病理图像下游迁移。

ImageBindPandaGPTVicunaMultimodalVPT
Coze 多模态视频生成 Agent
Agent

Coze 多模态视频生成 Agent

在 Coze(字节扣子)上拼出来的「文案 → 图片 → 视频」全自动短视频流水线,5 个互相调用的 workflow,每个 workflow 是一个独立的 zip。

CozeWorkflowImage GenerationVideo GenerationMultimodal
TensorRT 推理优化
模型训练

TensorRT 推理优化

把训练好的模型部署到边缘:ONNX → TensorRT 引擎构建 → 层/张量融合(Conv+BN+ReLU 塌缩成单个 CBR kernel) → INT8/FP16 PTQ 校准 → 自定义 NMS Plugin(IPluginV2) → SSD 目标检测推理。补全作品集缺的 senior MLSys 拼图。

TensorRTINT8Layer FusionCUDA PluginONNX
YOLOv12 钢材表面缺陷检测
模型训练

YOLOv12 钢材表面缺陷检测

用 Ultralytics YOLOv12 在 NEU-DET 上训练钢材表面缺陷检测器:6 类缺陷、~5000 张图、train → val → predict 全流程,落地自动化钢材质检。可复现训练配方 + 示意推理 Demo。

YOLOv12UltralyticsObject DetectionNEU-DETIndustrial CV
AI Analyst —— 会自己建模的数据分析 Agent
Agent

AI Analyst —— 会自己建模的数据分析 Agent

一个 LLM 当分析师:用 Function-Calling 编排工具——Text2SQL(create_sql_agent)从 MySQL 拉特征,再现场拟合可解释模型(线性回归拆解客单 + 决策树找驱动因子),最后给可执行建议。净新角度是「LLM 自己建模」,不是 NL→SQL→图表。

Function CallingText2SQLLangChainscikit-learnDeepSeek
PF-Net 3D 点云补全
模型训练

PF-Net 3D 点云补全

换一种数据:3D 无序点集。基于 PF-Net(Point Fractal Network) 的 GAN 点云补全——ShapeNet-Part 上自监督裁 512 点当 GT,多尺度 FPS 编码(1920 维)+ 分层残差解码 coarse(64)→center2(128)→fine(512) 填洞,Chamfer Distance + 对抗损失双约束。

PF-NetPoint CloudGANChamfer DistancePointNet
跨平台空间交互层(Quest + Vision Pro)
空间计算

跨平台空间交互层(Quest + Vision Pro)

从 SpatialXR Unity 视频课程整理的研究型案例:底层 OpenXR,设备层分叉(Meta XR SDK vs PolySpatial/Metal),上面的 XR Interaction Toolkit 保持一致。手骨架 → 捏合 → 射线 → 抓取 → 戳 World-Space UI 一条链。配套可运行 Unity 工程已开源。

OpenXRXR Interaction ToolkitMeta XR SDKPolySpatialVision Pro
大空间多人联机 MR
空间计算

大空间多人联机 MR

从 SpatialXR 视频课程整理的研究型案例:共址多人 MR 的核心难题——多台头显的本地坐标系经空间锚 + 空间对齐收敛到同一个共享 origin,再叠加玩家 / 物体状态同步,走公网中继,目标 Pico 大空间。联机 Netcode SDK 来自视频、未核实。非已上线 Unity 应用。

Spatial AnchorsColocationSpatial AlignmentPicoMultiplayer

学术研究与技术探索

基于扩散模型的高效视频生成方法

CVPR 2026

Your Name, et al.

提出了一种新的高效视频扩散模型架构,在保持生成质量的同时显著降低计算成本。

Video GenerationDiffusion ModelEfficiency

多模态时序理解的统一框架

NeurIPS 2025

Your Name, et al.

设计了统一的多模态时序理解框架,融合视觉、语言和音频信号进行时序推理。

MultimodalTemporalUnderstanding

技术分享与思考

AI 短片 · 驾驶拍摄 · 视觉故事

AI Film

AI 生成的赛博城市

使用 Sora 和 Runway 生成的赛博朋克风格城市短片

Driving

山路日落驾驶

4K 驾驶拍摄,记录山间公路的日落美景

AI Film

AI × 古风动画

用 AI 工具制作的中国古风动画短片

Driving

城市夜景巡航

城市夜间驾驶拍摄,霓虹灯光与车流

几个常见问题的快速解答

我在寻找 AI Engineer / 机器学习工程师方向的机会,专注视频生成、图像生成与多模态系统。全职岗位或高价值的合作项目都欢迎。

期待与你交流

通过 Web3Forms 安全传输 —— 我不会泄露你的信息