Mejorando la precisión de la IA en seguridad costera

Surf Life Saving Queensland (SLSQ) es una organización dedicada al rescate acuático y la seguridad a lo largo de 8.000 kilómetros de costa en Australia con 34.000 voluntarios.

SLSQ Hub, es una plataforma potenciada por inteligencia artificial que centraliza la gestión de consultas y brinda acceso rápido a información clave sobre membresías, formación, premios de rescate y procedimientos.

Alcance

El equipo de QAlified fue responsable de validar la precisión, confiabilidad y seguridad del sistema de IA utilizado en el SLSQ Hub. Se realizaron pruebas exhaustivas para garantizar que el modelo de IA proporcionara respuestas precisas, alineadas con las políticas operativas de SLSQ y sin sesgos que pudieran afectar la calidad del servicio.

Las actividades de Testing y QA incluyeron:

Desde el inicio, el equipo de QA colaboró estrechamente con los desarrolladores, lo que permitió entender cómo se diseñan las soluciones de IA y ajustar los casos de prueba a medida que evoluciona el sistema.

Se diseñó un conjunto de casos de prueba, incluyendo:

Escenarios estándar basados en preguntas y respuestas esperadas proporcionadas por SLSQ.
Casos borde diseñados por el equipo de QAlified para evaluar la robustez del sistema, como:
– Consultas ambiguas o con información parcial.
– Preguntas sobre combinaciones inusuales de membresías y certificaciones.
– Solicitudes de información sobre eventos o cursos inexistentes.

Para optimizar la validación del sistema, se implementó ArtificialQA, nuestra herramienta de automatización, que permitió:

Ejecutar pruebas de forma automática vía API, reduciendo tiempos de prueba.
Comparar respuestas generadas por el sistema con las respuestas esperadas.
Analizar respuestas desde múltiples dimensiones, incluyendo entre otras:
– Formalidad y tono de comunicación.
– Correctitud de la información.
– Detección de sesgos o desviaciones no esperadas.

Las pruebas automatizadas permitieron acelerar los ciclos de validación, proporcionando a los desarrolladores información detallada sobre posibles mejoras en la generación de respuestas. Esto llevó a ajustes en los modelos de IA, optimizando la precisión y confiabilidad del sistema.

Tecnologías y herramientas

Testing de RAG para validación de respuestas generadas.
Evaluación basada en QA datasets (set de preguntas y respuestas esperadas).
Automatización de pruebas vía API.
Análisis de respuestas: formalidad, coherencia y sesgos.
Bases de datos vectoriales para almacenamiento de información.

Resultados

Se diseñaron y ejecutaron más de 120 casos de prueba, combinando validaciones manuales y automatizadas.
Se redujo el tiempo de ejecución de pruebas en más de 60% gracias a la automatización, permitiendo validar nuevos ajustes del sistema de IA de manera ágil.
Se mejoró la precisión del sistema en menos del 30% tras iteraciones de ajustes basados en las pruebas realizadas.
Se identificaron y corrigieron sesgos en ciertas respuestas, optimizando la calidad de la información proporcionada a los voluntarios.
La validación continua permitió entregar informes detallados a los desarrolladores, facilitando mejoras progresivas en el sistema de IA y garantizando un servicio más confiable para SLSQ.

COMPARTIR EN:

Testing de IA en la Gestión de Consultas para Surf Life Saving Queensland (SLSQ)

Alcance

Tecnologías y herramientas

Resultados