Peter Tong

Publications

Scaling Language-Free Visual Representation Learning

David Fan*, Shengbang Tong*, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar†, Saining Xie†

ICCV 2025 Highlight

We introduce Visual SSL 2.0: Scaling up models, data to billion scale and adding VQA to the evaluation suite. Vision-only models scale with model size and data size, eventually catching up/surpassing CLIP models.

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Shengbang Tong, David Fan, Jiachen Zhu, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu

ICCV 2025

Visual understanding and visual generation are mutually beneficial in unified models! But visual understanding data is much more effective than visual generation. Capabilities in LLM can also transfer to unified models such as implicit reasoning!

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Shengbang Tong*, Ellis Brown*, Penghao Wu*, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

NeurIPS 2024 Oral

We provide a vision-centric exploration or cookbook in MLLMs, systematically studying visual representation, vision-language connector, instruction tuning data, training recipe and evaluation protocols. We propose new vision-centric benchmarks, spatial-aware connector, data collection and curation of instruction data, and release very competitive 8B, 13B and 34B models on par with GPT-4V and Gemini.

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie

CVPR 2024 Oral

Is vision good enough for language? Our research reveals that the visual capabilities in recent multimodal LLMs (MLLMs) still exhibit systematic shortcomings. We identify 'CLIP-blind pairs' - images that CLIP perceives as similar despite their clear visual differences. With these pairs, we construct the Multimodal Visual Patterns (MMVP) benchmark.

Mass-Producing Failures of Multimodal Systems with Language Models

Shengbang Tong*, Erik Jones*, Jacob Steinhardt

NeurIPS 2023

Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce MULTIMON, a system that automatically identifies systematic failures.

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Irving Fang*, Juexiao Zhang*, Shengbang Tong, Chen Feng

Technical Report
Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Junhong Shen*, Hao Bai*, Lunjun Zhang, Yifei Zhou, Amrith Setlur, Shengbang Tong, Diego Caples, Nan Jiang, Tong Zhang, Ameet Talwalkar, Aviral Kumar

Technical Report
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Chun-Hsiao Yeh*, Chenyu Wang*, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma

Technical Report
Scaling Language-Free Visual Representation Learning

David Fan*, Shengbang Tong*, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar†, Saining Xie†

ICCV 2025 Highlight
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Tianzhe Chu*, Yuexiang Zhai*, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

ICML 2025
MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Shengbang Tong, David Fan, Jiachen Zhu, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu

ICCV 2025
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig

ACL 2025
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Shengbang Tong*, Ellis Brown*, Penghao Wu*, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

NeurIPS 2024 Oral
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Yuexiang Zhai, Hao Bai*, Zipeng Lin*, Jiayi Pan*, Shengbang Tong*, Yifei Zhou*, Alen Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine

NeurIPS 2024
Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning

Shentong Mo, Shengbang Tong

NeurIPS 2024 Spotlight
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie

CVPR 2024 Oral
Investigating the Catastrophic Forgetting in Multimodal Large Language Models

Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma

CPAL 2024
Emergence of Segmentation with Minimalistic White-Box Transformers

Yaodong Yu*, Tianzhe Chu*, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma

CPAL 2024
Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription

Hongxiang Zhao*, Xili Dai*, Jianan Wang, Shengbang Tong, Jingyuan Zhang, Weida Wang, Lei Zhang, Yi Ma

Technical Report
Mass-Producing Failures of Multimodal Systems with Language Models

Shengbang Tong*, Erik Jones*, Jacob Steinhardt

NeurIPS 2023
Image Clustering in the Age of Pretrained Models

Tianzhe Chu*, Shengbang Tong*, Tianjiao Ding*, Xili Dai, Benjamin Haeffele, Rene Vidal, Yi Ma

ICLR 2024
White-Box Transformers via Sparse Rate Reduction

Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu, Shengbang Tong, Benjamin Haeffele, Yi Ma

NeurIPS 2023
EMP-SSL: Towards Self-Supervised Learning in One Epoch

Shengbang Tong*, Yubei Chen*, Yi Ma, Yann LeCun

Technical Report
Unsupervised Manifold Linearizing and Clustering

Tianjiao Ding, Shengbang Tong, Kwan Ho Ryan Chan, Xili Dai, Yi Ma, Benjamin David Haeffele

ICCV 2023
Closed-Loop Transcription Via Convolutional Sparse Coding

Xili Dai, Ke Chen, Shengbang Tong, Jingyuan Zhang, Xingjian Gao, Mingyang Li, Druv Pai, Yuexiang Zhai, Xiaojun Yuan, Heung Yeung Shum, Lionel M.Ni, Yi Ma

CPAL 2024
Unsupervised Learning of Structured Representation via Closed-Loop Transcription

Shengbang Tong*, Xili Dai*, Yubei Chen, Mingyang Li, Zengyi Li, Brent Yi, Yann LeCun, Yi Ma

CPAL 2024
Revisiting Sparse Convolutional Model for Visual Recognition

Xili Dai*, Mingyang Li*, Pengyuan Zhai, Shengbang Tong, Xingjian Gao, Shaolun Huang, Zhihui Zhu, Chong You, Yi Ma

NeurIPS 2022
Incremental Learning of Structured Memory via Closed-Loop Transcription

Shengbang Tong, Xili Dai, Ziyang Wu, Mingyang Li, Brent Yi, Yi Ma

ICLR 2023
Closed-Loop Data Transcription to an LDR via Minimaxing Rate Reduction

Xili Dai*, Shengbang Tong*, Mingyang Li*, Ziyang Wu*, Kwan Ho Ryan Chan, Pengyuan Zhai, Yaodong Yu, Michael Psenka, Xiaojun Yuan, Heung Yeung Shum, Yi Ma

Entropy Journal

Peter Tong

Research

News

Publications

Scaling Language-Free Visual Representation Learning

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Mass-Producing Failures of Multimodal Systems with Language Models

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

Scaling Language-Free Visual Representation Learning

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Investigating the Catastrophic Forgetting in Multimodal Large Language Models

Emergence of Segmentation with Minimalistic White-Box Transformers

Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription

Mass-Producing Failures of Multimodal Systems with Language Models

Image Clustering in the Age of Pretrained Models

White-Box Transformers via Sparse Rate Reduction

EMP-SSL: Towards Self-Supervised Learning in One Epoch

Unsupervised Manifold Linearizing and Clustering

Closed-Loop Transcription Via Convolutional Sparse Coding

Unsupervised Learning of Structured Representation via Closed-Loop Transcription

Revisiting Sparse Convolutional Model for Visual Recognition

Incremental Learning of Structured Memory via Closed-Loop Transcription

Closed-Loop Data Transcription to an LDR via Minimaxing Rate Reduction