(West Meeting Room 118-120, Vancouver, December 14, 2024, Website)

Accepted Papers

Semantic Self-Consistency: Enhancing Language Model Reasoning via Semantic Weighting
Probabilistic Proof State Compression: Optimizing LLM-Guided Formal Verification
Constraint-Based Synthetic Data Generation for LLM Mathematical Reasoning
Synchronizing Verbal Responses and Board Writing for Multimodal Math Instruction with LLMs
ABEL: Sample Efficient Online Reinforcement Learning for Neural Theorem Proving
AI-Assisted Generation of Difficult Math Questions
How Transformers Reason: A Case Study on a Synthetic Propositional Logic Problem
Learning Elementary Cellular Automata with Transformers
Math for AI: On the Generalization of Learning Mathematical Problem Solving
Genetic Curriculum Learning for Distribution Generalization on the Travelling Salesman Problem
Structure Based Dataset on SAT Solving with Graph Neural Networks
A Hessian View of Grokking in Mathematical Reasoning
Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning
Generative Verifiers: Reward Modeling as Next-Token Prediction
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula
Not All LLM Reasoners Are Created Equal
Formal Theorem Proving by Rewarding LLMs to Decompose Proofs Hierarchically
Machine Learning meets Algebraic Combinatorics: A Suite of Datasets to Accelerate AI for Mathematics Research
Repeated examples help learn arithmetic
VinePPO: Accurate Credit Assignment in RL for LLM Mathematical Reasoning
Transformers to Predict the Applicability of Symbolic Integration Routines
NLIR: Natural Language Intermediate Representation for Mechanized Theorem Proving
DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images
Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models
Library Learning Doesn't: The Curious Case of the Single-Use "Library"
On Memorization of Large Language Models in Logical Reasoning
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning
MathDSL: A Domain-Specific Language for Concise Mathematical Solutions Via Program Synthesis
Transformers Can Do Arithmetic with the Right Embeddings
miniCTX: Neural Theorem Proving with (Long-)Contexts
Mining Math Conjectures from LLMs: A Pruning Approach
The Art of Knowing When to Stop: Analysis of Optimal Stopping in People and Machines
The Karp Dataset
Towards Faster Quantum Circuit Simulation Using Graph Decompositions, GNNs and Reinforcement Learning
Intermediate Fine-Tuning Improves Mathematical Reasoning in Smaller Models
Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data
Interleaving Text and Number Embeddings to Solve Mathemathics Problems
Looped Transformers for Length Generalization
TurtleBench: A Visual Programming Benchmark in Turtle Geometry
Wu's Method Boosts Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
Models Can and Should Embrace the Communicative Nature of Human-Generated Math
CausalBench: A Comprehensive Benchmark for Evaluating Causal Reasoning Capabilities of Large Language Models
FEABench: Evaluating Language Models on Real World Physics Reasoning Ability
Reasoning and Tools for Forecasting
Reasoning in Reasoning: A Hierarchical Framework for Better and Faster Neural Theorem Proving
CAFA: Coding as Auto-Formulation Can Boost Large Language Models in Solving Linear Programming Problem
Synthesizing Verified Mathematical Problems
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery
HARDMATH: A Benchmark Dataset for Challenging Problems in Applied Mathematics
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation
Give me a hint: Can LLMs take a hint to solve math problems?
SBSC: Step-by-Step Coding for Improving Mathematical Olympiad Performance
Lean-STaR: Learning to Interleave Thinking and Proving
Math2Sym: A System for Solving Elementary Problems via Large Language Models and Symbolic Solvers
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in LLMs — The Story Goes On
Proving Olympiad Algebraic Inequalities without Human Demonstrations
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving
STEM-PoM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing
Machines and Mathematical Mutations: Using GNNs to Characterize Quiver Mutation Classes
Attention Bias as an Inductive Bias: How to Teach Transformers Simple Arithmetic
Learning Mathematical Rules with Large Language Models
Formal Representation and Solution of Plane Geometric Problems
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data
WILT: A Multi-turn, Memorization-Robust Inductive Logic Benchmark for LLMs
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search
Regress, Don't Guess – A Regression-like Loss on Number Tokens for Language Models
DafnyBench: A Benchmark for Formal Software Verification

The list of accepted papers can be found on OpenReview here.

Reviewers

We are grateful to our fantastic reviewers for making our workshop reviewing process run smoothly:

Alan Sun
Alberto Alfarano
Anubhav Paras
Aram H. Markosyan
Arun Sethupat Radhakrishna
Aryan Jadon
Biswarup Bhattacharya
Bo Liu
Boxuan Li
Cai Zhou
Chandrasekhar Karnam
Changhun Kim
Chenglin Wu
Chenhao Fang
Chenhui Xu
Chenrui Wei
Chenyang Zhao
Chisom Chibuike
Claire Zhao
Da Wu
Darpan Jain
Dawei Li
Debajyoti Dasgupta
Dongping Chen
Eshika Saxena
Fabian Gloeckle
Fan Zhou
Federico Cassano
Feng Chen
Francois Charton
George Tsoukalas
Guangyan Gan
Haichen Hu
Hao-Yuan He
Haolin Yang
Haotian Sun
Haoyang Zheng
Hoang H Nguyen
Hongyang R. Zhang
Igor Gitman
Janet Yunchen Sung
Jason Rute
Jeshwanth Challagundla
Jiajing Chen
Jianbo Wu
Jiaru Zou
Jiayi Geng
Jiayi Shen
Jingxiao Tian
Kaitian Jin
Kaixuan Huang
Kexun Zhang
Krishna Kartik
Kumar Krishna Agrawal
Liang Zeng
Linda Friso
Lu Sun
Lucas Roberts
Maheep Chaudhary
Mallikarjuna Tupakula
Mantek Singh
Marco Dos Santos
Marcus J. Min
Mason DiCicco
Matin Khajavi
Meghana Puvvadi
Mohammad Ghiasvand Mohammadkhani
Naman Jain
Nikhil Pentapalli
Nikolay Malkin
Parshin Shojaee
Peiyang Song
Purva Chiniya
Qiuyu Luo
Rahul Chalamala
Rashid Barket
Robert Joseph George
Robert Zhang
Sai Kumar Arava
Samy Jelassi
Sanil Jain
Sayali Rajeev Kulkarni
Sean Michael McLeish
Shanda Li
Shayekh Bin Islam
Shida Wang
Shubhra Mishra
Shujing Yang
Siddharth Nayak
Simeng Han
Sina Rismanchian
Sukanya Moorthy
Sumit Ranjan
Surabhi Bhargava
Theo X. Olausson
Vivek Tiwari
Wei Dai
Wei Wang
Weiqiao Han
Wen-Ding Li
Xiang Zhang
Xiao-Wen Yang
Xiaohan Yang
Xinyi Yang
Yang Xu
Yangzhen Wu
Ye Zhang
Yi Wen
Yike Zhang
Yiyuan Li
Yongzhe Zhang
Yufan Song
Yuxin Qiao
Yuxuan Tong
Zeyu Cao
Zhaoyu Li
Zhehao Zhang
Zhening Li
Zhizhong Wu
Zhun Zhou
Zhuo Liu
Zihao Zhou
Zijian Zhang
Ziyu Ye