About Me

I am currently a research scientist at Tencent. I was a research scientist at Nvidia working on the Cosmos world models, research lead at TikTok/ByteDance building Seed foundation models, research scientist at Facebook AI Research, and an early member of the Amazon Go team that built the computer vision system to replace human cashiers for retail. Before moving to US, I was a postdoc in the LEAR Team, INRIA with Cordelia Schmid. I received my Ph.D. in Computer Vision from Chinese Academy of Sciences, and B.S. in Electrical Engineering from Harbin Institute of Technology.

My research interests range from visual understanding to generation, recently focusing on world models. You can find more detailed information in my CV and my old homepage. The best way to contact me is via my e-mail: .

Updates

3 papers accepted by ICLR 2025.
Cosmos World Models released at CES’25.
Honored to receive the Helmholtz Prize (Test of Time Award) at ICCV 2023.
Congrats to the team for winning the DataComp challenge. Check out our arXiv paper for more details.
2 papers at CVPR 2023 and 1 paper at ICCV 2023.
Release the code & model for our CVPR 2022 paper on open-world instance segmentation.
Release the UVO dataset and organize a challenge for Open-World Segmentation @ ICCV 2021.
is released! Check out the code at GitHub and the offical webiste.
Open sourced the code & model for TimeSformer.

Recent publications

	Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels? Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado, Yu Hen Hu, Linjie Yang. ICCV, 2023. Paper, Project page, Code
	R2Former: Unified Retrieval and Reranking Transformer for Place Recognition. Sijie Zhu, Linjie Yang, Chen Chen, Mubarak Shah, Xiaohui Shen, Heng Wang. CVPR, 2023. Paper, Project page, Code
	PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters. Shuhong Chen, Kevin Zhang, Yichun Shi, Heng Wang, Yiheng Zhu, Guoxian Song, Sizhe An, Janus Kristjansson, Xiao Yang, Matthias Zwicker. CVPR, 2023. Paper, Project page, Dataset
	Open-World Instance Segmentation: Exploiting Pseudo Ground Truth Learned from Pairwise Affinity. Weiyao Wang, Matt Feiszli, Heng Wang, Jitendra Malik, Du Tran. CVPR, 2022. Paper, Project page, Code
	PyTorchVideo: A Deep Learning Library for Video Understanding. Haoqi Fan, Tullie Murrell, Heng Wang, Kalyan Vasudev Alwala, Yanghao Li, Yilei Li, Bo Xiong, Nikhila Ravi, Meng Li, Haichuan Yang, Jitendra Malik, Ross Girshick, Matt Feiszli, Aaron Adcock, Wan-Yen Lo, Christoph Feichtenhofer. ACM International Conference on Multimedia, 2021. Paper, Project page, Code, Facebook AI Blog
	Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation. Weiyao Wang, Matt Feiszli, Heng Wang, Du Tran. ICCV, 2021. Paper, Dataset, Workshop, Challenge, Facebook AI Blog
	Searching for Two-Stream Models in Multivariate Space for Video Recognition. Xinyu Gong, Heng Wang, Zheng Shou, Matt Feiszli, Zhangyang Wang, Zhicheng Yan. ICCV, 2021. Paper
	Interactive Prototype Learning for Egocentric Action Recognition. Xiaohan Wang, Linchao Zhu, Heng Wang, Yi Yang. ICCV, 2021. Paper
	Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius, Heng Wang, Lorenzo Torresani. ICML, 2021. Paper, Code, Facebook AI Blog
	Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories. Xitong Yang, Haoqi Fan, Lorenzo Torresani, Larry Davis, Heng Wang. CVPR, 2021. Paper, Poster, Slides