Inicio / Investigación

Investigación en BAISH

Ayudamos a estudiantes en Buenos Aires a pasar de curiosos a publicados. Sumate a sprints de investigación, talleres y una comunidad de aspirantes a investigadores en seguridad de IA.

Sumate a un Programa Ver Publicaciones

Tu Camino en Investigación

De los primeros pasos a investigador publicado — así funciona

Aprender

AI Safety Fundamentals

Practicar

AIS Research Workshop

You're here

Investigar

Sprints de Investigación

Publicaciones de la Comunidad

Trabajo de investigadores conectados a BAISH

Apart Research HackathonNov 2025

Table Top Agents

Luca De Leo

Framework con IA que acelera la exploración de escenarios de gobernanza de IA mediante ejercicios de simulación con agentes autónomos, comprimiendo ciclos de preparación de años a minutos.

Apart

Tesis de LicenciaturaOct 2025

Explorando AI Safety via Debate: un estudio sobre capacidades asimétricas y jueces débiles en el entorno MNIST

Joaquín Machulsky

Tesis de licenciatura que explora la seguridad en IA a través de mecanismos de debate, estudiando capacidades asimétricas y jueces débiles en el entorno MNIST. Incluye una demo interactiva.

Sitio Web

arXivOct 2025

Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity

Austin Meek, Eitan Sprejer, Iván Arcuschin, Austin J. Brockmeier, Steven Basart

Investigación sobre qué tan bien se puede monitorear el razonamiento chain-of-thought para seguridad a través de métricas de fidelidad y verbosidad.

arXiv

arXivOct 2025

AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs

María Victoria Carro, Denise Mester, Facundo Nieto, Oscar Stanchi, Guido Bergman, Mario Leiva, Eitan Sprejer, Luca Forziati Gangi, et al.

Estudiando cómo las creencias internas de sistemas de IA afectan su persuasión en escenarios de debate — implicaciones para seguridad y engaño.

arXiv

NeurIPS WorkshopSep 2025

Approximating Human Preferences Using a Multi-Judge Learned System

Eitan Sprejer, Fernando Avalos, Augusto Mariano Bernardi, José Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer

Un enfoque multi-juez para aproximar mejor las preferencias humanas en sistemas de IA, mejorando la evaluación de alineamiento.

arXiv

Apart Research HackathonSep 20252do Puesto

RobustCBRN Eval: A Practical Benchmark Robustification Toolkit

Luca De Leo, James Sykes, Balázs László, Ewura Ama Etruwaa Sam

Pipeline que aborda vulnerabilidades en evaluaciones CBRN mediante detección de consenso, scoring cloze verificado y evaluación estadística con intervalos de confianza bootstrap.

Apart

Apart Research HackathonJun 20251er Puesto

Four Paths to Failure: Red Teaming ASI Governance

Luca De Leo, Zoé Roy-Stang, Heramb Podar, Damin Curtis, Vishakha Agrawal, Ben Smyth

Análisis de estrés de la moratoria Phase 0 de A Narrow Path para ASI, identificando cuatro rutas de evasión y proponiendo diez enmiendas de política.

Apart

Nuestra comunidad sigue creciendo — estamos construyendo nuestro historial de publicaciones a través de programas como AISAR y sprints de Apart Research.

En Qué Podrías Trabajar

Direcciones de investigación actuales en nuestra comunidad

Interpretabilidad Mecánica

Entender cómo las redes neuronales procesan información internamente. ¿Qué circuitos implementan comportamientos específicos? ¿Cómo podemos hacer ingeniería inversa de la cognición del modelo?

Evaluaciones de LLMs

Construir benchmarks y metodologías de testing para modelos de frontera. ¿Cómo medimos el alineamiento? ¿Qué capacidades emergen a escala?

Teoría de Alineamiento

Preguntas fundamentales sobre cómo hacer que los sistemas de IA sean beneficiosos. ¿Cómo especificamos valores humanos? ¿Qué mecanismos de supervisión funcionan?

Participá

Expresá tu Interés en Investigación

¿Querés contribuir a investigación en AI safety? Contanos tu background e intereses, y te conectamos con proyectos y colaboradores relevantes.

Usá nuestro formulario de contacto para contarnos sobre tu background e intereses de investigación.

Contactanos

Revisamos los mensajes regularmente y nos contactamos cuando hay un buen fit.

¿Listo para empezar tu camino en investigación?

Agendá una llamada con uno de nuestros co-fundadores para discutir tus intereses y encontrar el camino correcto.

Eitan Sprejer

Interpretabilidad y Evaluaciones

Agendar con Eitan

Luca De Leo

Operaciones y Estrategia

Agendar con Luca

Inicio / Investigación

Investigación en BAISH

Ayudamos a estudiantes en Buenos Aires a pasar de curiosos a publicados. Sumate a sprints de investigación, talleres y una comunidad de aspirantes a investigadores en seguridad de IA.

Sumate a un Programa Ver Publicaciones

Tu Camino en Investigación

De los primeros pasos a investigador publicado — así funciona

Aprender

AI Safety Fundamentals

Practicar

AIS Research Workshop

You're here

Investigar

Sprints de Investigación

Publicaciones de la Comunidad

Trabajo de investigadores conectados a BAISH

Apart Research HackathonNov 2025

Table Top Agents

Luca De Leo

Framework con IA que acelera la exploración de escenarios de gobernanza de IA mediante ejercicios de simulación con agentes autónomos, comprimiendo ciclos de preparación de años a minutos.

Apart

Tesis de LicenciaturaOct 2025

Explorando AI Safety via Debate: un estudio sobre capacidades asimétricas y jueces débiles en el entorno MNIST

Joaquín Machulsky

Tesis de licenciatura que explora la seguridad en IA a través de mecanismos de debate, estudiando capacidades asimétricas y jueces débiles en el entorno MNIST. Incluye una demo interactiva.

Sitio Web

arXivOct 2025

Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity

Austin Meek, Eitan Sprejer, Iván Arcuschin, Austin J. Brockmeier, Steven Basart

Investigación sobre qué tan bien se puede monitorear el razonamiento chain-of-thought para seguridad a través de métricas de fidelidad y verbosidad.

arXiv

arXivOct 2025

AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs

María Victoria Carro, Denise Mester, Facundo Nieto, Oscar Stanchi, Guido Bergman, Mario Leiva, Eitan Sprejer, Luca Forziati Gangi, et al.

Estudiando cómo las creencias internas de sistemas de IA afectan su persuasión en escenarios de debate — implicaciones para seguridad y engaño.

arXiv

NeurIPS WorkshopSep 2025

Approximating Human Preferences Using a Multi-Judge Learned System

Eitan Sprejer, Fernando Avalos, Augusto Mariano Bernardi, José Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer

Un enfoque multi-juez para aproximar mejor las preferencias humanas en sistemas de IA, mejorando la evaluación de alineamiento.

arXiv

Apart Research HackathonSep 20252do Puesto

RobustCBRN Eval: A Practical Benchmark Robustification Toolkit

Luca De Leo, James Sykes, Balázs László, Ewura Ama Etruwaa Sam

Pipeline que aborda vulnerabilidades en evaluaciones CBRN mediante detección de consenso, scoring cloze verificado y evaluación estadística con intervalos de confianza bootstrap.

Apart

Apart Research HackathonJun 20251er Puesto

Four Paths to Failure: Red Teaming ASI Governance

Luca De Leo, Zoé Roy-Stang, Heramb Podar, Damin Curtis, Vishakha Agrawal, Ben Smyth

Análisis de estrés de la moratoria Phase 0 de A Narrow Path para ASI, identificando cuatro rutas de evasión y proponiendo diez enmiendas de política.

Apart

Nuestra comunidad sigue creciendo — estamos construyendo nuestro historial de publicaciones a través de programas como AISAR y sprints de Apart Research.

En Qué Podrías Trabajar

Direcciones de investigación actuales en nuestra comunidad

Interpretabilidad Mecánica

Evaluaciones de LLMs

Construir benchmarks y metodologías de testing para modelos de frontera. ¿Cómo medimos el alineamiento? ¿Qué capacidades emergen a escala?

Teoría de Alineamiento

Preguntas fundamentales sobre cómo hacer que los sistemas de IA sean beneficiosos. ¿Cómo especificamos valores humanos? ¿Qué mecanismos de supervisión funcionan?

Participá

Expresá tu Interés en Investigación

¿Querés contribuir a investigación en AI safety? Contanos tu background e intereses, y te conectamos con proyectos y colaboradores relevantes.

Usá nuestro formulario de contacto para contarnos sobre tu background e intereses de investigación.

Contactanos

Revisamos los mensajes regularmente y nos contactamos cuando hay un buen fit.

¿Listo para empezar tu camino en investigación?

Agendá una llamada con uno de nuestros co-fundadores para discutir tus intereses y encontrar el camino correcto.

Eitan Sprejer

Interpretabilidad y Evaluaciones

Agendar con Eitan

Luca De Leo

Operaciones y Estrategia

Agendar con Luca