Table Top Agents
Luca De Leo![]()
Framework con IA que acelera la exploración de escenarios de gobernanza de IA mediante ejercicios de simulación con agentes autónomos, comprimiendo ciclos de preparación de años a minutos.
Ayudamos a estudiantes en Buenos Aires a pasar de curiosos a publicados. Sumate a sprints de investigación, talleres y una comunidad de aspirantes a investigadores en seguridad de IA.
De los primeros pasos a investigador publicado — así funciona
Trabajo de investigadores conectados a BAISH
Luca De Leo![]()
Framework con IA que acelera la exploración de escenarios de gobernanza de IA mediante ejercicios de simulación con agentes autónomos, comprimiendo ciclos de preparación de años a minutos.
Joaquín Machulsky![]()
Tesis de licenciatura que explora la seguridad en IA a través de mecanismos de debate, estudiando capacidades asimétricas y jueces débiles en el entorno MNIST. Incluye una demo interactiva.
Austin Meek, Eitan Sprejer
, Iván Arcuschin, Austin J. Brockmeier, Steven Basart
Investigación sobre qué tan bien se puede monitorear el razonamiento chain-of-thought para seguridad a través de métricas de fidelidad y verbosidad.
María Victoria Carro, Denise Mester, Facundo Nieto, Oscar Stanchi, Guido Bergman, Mario Leiva, Eitan Sprejer
, Luca Forziati Gangi, et al.
Estudiando cómo las creencias internas de sistemas de IA afectan su persuasión en escenarios de debate — implicaciones para seguridad y engaño.
Eitan Sprejer
, Fernando Avalos, Augusto Mariano Bernardi, José Pedro Brito de Azevedo Faustino, Jacob Haimes, Narmeen Fatimah Oozeer
Un enfoque multi-juez para aproximar mejor las preferencias humanas en sistemas de IA, mejorando la evaluación de alineamiento.
Luca De Leo
, James Sykes, Balázs László, Ewura Ama Etruwaa Sam
Pipeline que aborda vulnerabilidades en evaluaciones CBRN mediante detección de consenso, scoring cloze verificado y evaluación estadística con intervalos de confianza bootstrap.
Luca De Leo
, Zoé Roy-Stang, Heramb Podar, Damin Curtis, Vishakha Agrawal, Ben Smyth
Análisis de estrés de la moratoria Phase 0 de A Narrow Path para ASI, identificando cuatro rutas de evasión y proponiendo diez enmiendas de política.
Nuestra comunidad sigue creciendo — estamos construyendo nuestro historial de publicaciones a través de programas como AISAR y sprints de Apart Research.
Direcciones de investigación actuales en nuestra comunidad
Entender cómo las redes neuronales procesan información internamente. ¿Qué circuitos implementan comportamientos específicos? ¿Cómo podemos hacer ingeniería inversa de la cognición del modelo?
Construir benchmarks y metodologías de testing para modelos de frontera. ¿Cómo medimos el alineamiento? ¿Qué capacidades emergen a escala?
Preguntas fundamentales sobre cómo hacer que los sistemas de IA sean beneficiosos. ¿Cómo especificamos valores humanos? ¿Qué mecanismos de supervisión funcionan?
Participá
¿Querés contribuir a investigación en AI safety? Contanos tu background e intereses, y te conectamos con proyectos y colaboradores relevantes.
Usá nuestro formulario de contacto para contarnos sobre tu background e intereses de investigación.
ContactanosRevisamos los mensajes regularmente y nos contactamos cuando hay un buen fit.
Agendá una llamada con uno de nuestros co-fundadores para discutir tus intereses y encontrar el camino correcto.