Research notes
Science for AII am building physics-style evaluation harnesses for AI reliability: invariance and conservation probes, causal diagnostics, and stress traces that surface failure modes before deployment. The work is currently pre-publication while I harden the notebooks and benchmarks.
The aim is to bring lab-grade measurement rigor into AI tooling and publish the first science-for-AI notes and benchmark slices in 2025.
핵심 결과3
- 보존량·불변량 평가 프로토타입을 내부에서 구축했습니다(출판 전).
- 공유 가능한 노트북·데이터셋 릴리스 계획을 세웠습니다.
- 물리 priors에 맞춘 메트릭으로 모델 거동과 불확실성을 해석했습니다.
진행 중3
- 2025년에 첫 science-for-AI 연구 노트와 벤치마크 공개 준비.
- 협업자들과 인과/해석 가능성 프로브 확장.
- 프론티어 모델 실패 모드를 겨냥해 평가 스택을 경량화.