Teng Wang 王腾

高级算法研究员, 腾讯
深圳, 中国

✉️ 邮箱: ttengwang@gmail.com
👨‍💻 Github: https://github.com/ttengwang
🎓 谷歌学术: https://scholar.google.com/citations?user=TqY98koAAAAJ
🏠 家乡: 济宁, 中国

你好！我是王腾，目前就职于腾讯ARC实验室，从事算法研究工作，专注于多模态基础模型与视频理解系统的探索。在此之前，我于2024年在香港大学获得计算机科学博士学位，师从罗平教授和郑锋教授。在攻读博士之前，我在中山大学先后获得学士和硕士学位，师从郑慧诚教授。

合作意向: 我们正在积极寻找有志于多模态基础模型与视频理解系统研究的实习生和合作者。如果你对视觉-语言-音频任务、视频理解或多模态推理模型感兴趣，欢迎通过邮箱联系我们！

近期动态

[2025年4月] 三篇论文被CVPR 2025, ICLR 2025, TCSVT接收，包括一篇Spotlight论文。
[2024年12月] 两篇论文被ECCV 2024, ACMMM 2024接收。
[2023年12月] 六篇论文被ICCV 2023, CVPR 2023, ICML 2023接收，包括一篇Oral论文。
[2022年12月] 四篇论文被ICML 2022, TMM 2022, ICCV 2021, TCSVT 2020接收。

研究兴趣

我的研究兴趣包括：

统一多模态模型 (视觉-语言-音频统一模型, 理解-生成统一模型)
多模态推理 (多模态思维链, 类R1推理)
长视频理解 (视频定位, 密集理解, 视频推理)

部分论文

* 共一作者

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation
Haokun Lin*, Teng Wang*, Yixiao Ge, Yuying Ge, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun, Ying Shan
Arxiv, 2025.

Video understanding with large language models: A survey
Yunlong Tang, Jing Bi, Siting Xu, Luchuan Song, Susan Liang, Teng Wang, et al.
IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2025. (github 2k stars)

UniAV: Unified Audio-Visual Perception for Multi-Task Video Localization
Tiantian Geng, Teng Wang, Yanfu Zhang, Jinming Duan, Weili Guan, Feng Zheng
Arxiv, 2024.

Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models
Jinrui Zhang, Teng Wang, Haigang Zhang, Ping Lu, and Feng Zheng
European Conference on Computer Vision (ECCV), 2024.

Caption anything: Interactive image description with diverse multimodal controls
Teng Wang*, Jinrui Zhang*, Junjie Fei*, Yixiao Ge, Hao Zheng, et al.
Arxiv, 2023. (github 1.7k stars)

Transferable decoding with visual entities for zero-shot image captioning
Junjie Fei*, Teng Wang*, Jinrui Zhang, Zhenyu He, Chengjie Wang, Feng Zheng
International Conference on Computer Vision (ICCV), 2023.

Knowledge-aware prompt tuning for generalizable vision-language models
Baoshuo Kan*, Teng Wang*, Wenpeng Lu, Xiantong Zhen, Weili Guan, Feng Zheng
International Conference on Computer Vision (ICCV), 2023.

Set-level guidance attack: Boosting adversarial transferability of vision-language pre-training models
Dong Lu*, Zhiqiang Wang*, Teng Wang, Weili Guan, Hongchang Gao, Feng Zheng
International Conference on Computer Vision (ICCV Oral), 2023.

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos
Teng Wang*, Jinrui Zhang*, Feng Zheng, Wenhao Jiang, Ran Cheng, Ping Luo
Arxiv, 2023. (Rank 1 in PIC Challenge 2022 Track 1&2)

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline
Tiantian Geng, Teng Wang, Jinming Duan, Runmin Cong, Feng Zheng
IEEE Computer Vision and Pattern Recognition (CVPR), 2023.

Accelerating Vision-Language Pretraining with Free Language Modeling
Teng Wang , Yixiao Ge, Feng Zheng, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo
IEEE Computer Vision and Pattern Recognition (CVPR), 2023.

VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
Teng Wang, Wenhao Jiang, Zhichao Lu, Feng Zheng, Ran Cheng, Chengguo Yin, Ping Luo
International Conference on Machine Learning (ICML), 2022

End-to-end dense video captioning with parallel decoding
Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, Ping Luo
International Conference on Computer Vision (ICCV), 2021.

Event-centric hierarchical representation for dense video captioning
Teng Wang, Huicheng Zheng, Mingjing Yu, Qian Tian, Haifeng Hu
IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2020.

学术服务

工作经历

竞赛获奖

LOVEU Challenge

PIC challenge

LOVEU Challenge

ActivityNet Challenge

TinyAction Challenge