去年初,我曾打算撰写一篇关于端到端自动驾驶的文章,发现大模型在自动驾驶领域的尝试案例并不多。遂把议题扩散了一点,即**从大模型开始,逐渐向自动驾驶垂直领域靠近,最后落地到端到端。**这样需要阐述的内容就变成LLM基础模型、LLM+自动驾驶以及端到端自动驾驶核心内容三部分。
上图是我司总结的大模型经典论文拓扑图,欢迎各位拍砖帮助更新,使得最终能落地到端到端自动驾驶。
LLM基础模型核心论文
Training language models to follow instructionswith human feedback;Learning Transferable Visual Models From NaturalLanguage Supervision;NExT-GPT: Any-to-Any Multimodal LLM;BLIP:用于统一视觉语言理解和生成的Pre-training;BLIP-2: 使用冻结图像编码器和大型语言模型的Pretraining;MiniGPT-4: 用高级大型语言模型增强视觉语言理解;InstructBLIP: 具有指令调优的通用视觉语言模型.LLM+自动驾驶核心论文
DriveGPT4:基于LLM的可解释端到端自动驾驶;Driving with LLMs: 融合目标级矢量模态实现可解释自动驾驶;GPT-DRIVER:使用GPT学习驾驶;DrivingDiffusion:基于扩散模型引导多视图驾驶场景视频生成;DriveDreamer: 面向自动驾驶的真实世界驱动世界模型;GAIA-1: 自动驾驶的生成世界模型;Language Prompt for Autonomous Driving;RT-2: 视觉语言动作模型将网络知识转化为机器人控制.为了方便介绍与总结,