🧪 LLM Reasoning Evaluator

Adversarial evaluation toolkit for frontier language models. Tests four failure-prone reasoning categories using an LLM-as-judge framework.

Built by Zalina Dezhina, PhD — AI Evaluation Scientist
Based on real evaluation methodology developed at Mercor for frontier AI systems.