BAISH Logo
BuenosAiresAISafetyHub
Sobre nosotrosProgramasInvestigaciónRecursosContacto
EnglishEspañol
Inicio / Investigación

Investigación en BAISH

Ayudamos a estudiantes en Buenos Aires a pasar de curiosos a publicados. Sumate a sprints de investigación, talleres y una comunidad de aspirantes a investigadores en seguridad de IA.

Sumate a un ProgramaVer Publicaciones

Tu Camino en Investigación

De los primeros pasos a investigador publicado — así funciona

01
Aprender
AI Safety Fundamentals
02
Practicar
AIS Research Workshop
You're here
03
Investigar
Sprints de Investigación
04
Lanzarte
AISAR y Carreras ↗
Step 01
Aprender
Step 02
Practicar
You're here
Investigar
Step 04
Lanzarte

Publicaciones de la Comunidad

Trabajo de investigadores conectados a BAISH

Apart Research HackathonNov 2025

Table Top Agents

Luca De LeoBAISH

Framework con IA que acelera la exploración de escenarios de gobernanza de IA mediante ejercicios de simulación con agentes autónomos, comprimiendo ciclos de preparación de años a minutos.

Apart
Tesis de LicenciaturaOct 2025

Explorando AI Safety via Debate: un estudio sobre capacidades asimétricas y jueces débiles en el entorno MNIST

Joaquín MachulskyBAISH

Tesis de licenciatura que explora la seguridad en IA a través de mecanismos de debate, estudiando capacidades asimétricas y jueces débiles en el entorno MNIST. Incluye una demo interactiva.

Sitio Web
arXivOct 2025

Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity

Austin Meek, Eitan SprejerBAISH, Iván Arcuschin, Austin J. Brockmeier, Steven Basart

Investigación sobre qué tan bien se puede monitorear el razonamiento chain-of-thought para seguridad a través de métricas de fidelidad y verbosidad.

arXiv
arXivOct 2025

AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs

María Victoria Carro, Denise Mester, Facundo Nieto, Oscar Stanchi, Guido Bergman, Mario Leiva, Eitan SprejerBAISH, Luca Forziati Gangi, et al.

Estudiando cómo las creencias internas de sistemas de IA afectan su persuasión en escenarios de debate — implicaciones para seguridad y engaño.

arXiv
NeurIPS WorkshopSep 2025

Approximating Human Preferences Using a Multi-Judge Learned System

Eitan SprejerBAISH, Fernando Avalos, Augusto Mariano Bernardi, José Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer

Un enfoque multi-juez para aproximar mejor las preferencias humanas en sistemas de IA, mejorando la evaluación de alineamiento.

arXiv
Apart Research HackathonSep 20252do Puesto

RobustCBRN Eval: A Practical Benchmark Robustification Toolkit

Luca De LeoBAISH, James Sykes, Balázs László, Ewura Ama Etruwaa Sam

Pipeline que aborda vulnerabilidades en evaluaciones CBRN mediante detección de consenso, scoring cloze verificado y evaluación estadística con intervalos de confianza bootstrap.

Apart
Apart Research HackathonJun 20251er Puesto

Four Paths to Failure: Red Teaming ASI Governance

Luca De LeoBAISH, Zoé Roy-Stang, Heramb Podar, Damin Curtis, Vishakha Agrawal, Ben Smyth

Análisis de estrés de la moratoria Phase 0 de A Narrow Path para ASI, identificando cuatro rutas de evasión y proponiendo diez enmiendas de política.

Apart

Nuestra comunidad sigue creciendo — estamos construyendo nuestro historial de publicaciones a través de programas como AISAR y sprints de Apart Research.

En Qué Podrías Trabajar

Direcciones de investigación actuales en nuestra comunidad

Interpretabilidad Mecánica

Entender cómo las redes neuronales procesan información internamente. ¿Qué circuitos implementan comportamientos específicos? ¿Cómo podemos hacer ingeniería inversa de la cognición del modelo?

Evaluaciones de LLMs

Construir benchmarks y metodologías de testing para modelos de frontera. ¿Cómo medimos el alineamiento? ¿Qué capacidades emergen a escala?

Teoría de Alineamiento

Preguntas fundamentales sobre cómo hacer que los sistemas de IA sean beneficiosos. ¿Cómo especificamos valores humanos? ¿Qué mecanismos de supervisión funcionan?

Participá

Expresá tu Interés en Investigación

¿Querés contribuir a investigación en AI safety? Contanos tu background e intereses, y te conectamos con proyectos y colaboradores relevantes.

Usá nuestro formulario de contacto para contarnos sobre tu background e intereses de investigación.

Contactanos

Revisamos los mensajes regularmente y nos contactamos cuando hay un buen fit.

¿Listo para empezar tu camino en investigación?

Agendá una llamada con uno de nuestros co-fundadores para discutir tus intereses y encontrar el camino correcto.

Eitan Sprejer

Eitan Sprejer

Interpretabilidad y Evaluaciones

Agendar con Eitan
Luca De Leo

Luca De Leo

Operaciones y Estrategia

Agendar con Luca
BAISH Logo

Buenos Aires AI Safety Hub

© 2025 BAISH. Todos los derechos reservados.

Sobre nosotrosProgramasInvestigaciónRecursosContacto
Política de privacidad