El setup de audio para grabar sesiones: la pieza que casi nadie cuida y mejora la transcripción IA un 20%
El audio es la pieza más infravalorada del software clínico con IA. Una buena captura sube la precisión de la transcripción del 92% al 97%. Guía práctica con hardware concreto y configuraciones.
Si has probado IA de transcripción con sesiones clínicas y has obtenido resultados decepcionantes, antes de cambiar de software conviene revisar la pieza más invisible del flujo: el audio. La diferencia entre una transcripción del 92% de precisión y una del 97% no está casi nunca en el modelo de IA — está en cómo capturas el sonido. Esta guía es práctica, concreta y con hardware específico para terapeutas en consulta privada.
por qué el audio importa más que el modelo de IA
Los modelos de transcripción de última generación (Gemini 3 Flash, Whisper Large v3, Soniox v4, ElevenLabs Scribe) ofrecen precisión cercana al 99% con audio de estudio. En audio realista de consulta — eco de pared, voz baja emocional, solapamientos del paciente y el terapeuta, silencios largos — esa precisión cae al 90-95%. La diferencia entre modelos en condiciones reales es solo de 2-3 puntos porcentuales. La diferencia entre un setup de audio mediocre y uno bueno es de 5-10 puntos. Es decir: mejorar el audio te da más precisión que cambiar de software.
los cuatro enemigos del audio clínico
eco de pared
La consulta típica tiene paredes blancas, suelo duro, poco mobiliario tapizado. El sonido rebota, llega al micrófono varias veces con milisegundos de retraso, y el modelo de IA interpreta ese eco como ruido. Solución mecánica: cualquier elemento textil pesado (cortina gruesa, alfombra, sofá, cojines) reduce el rebote. Solución técnica: micrófono con patrón polar cardioide o supercardioide — solo capta lo que está delante, ignora reflejos laterales.
voz baja emocional
Los pacientes en momentos de carga emocional bajan el volumen, susurran, casi suspiran. Si el micrófono está lejos (ordenador a 1.5 m), esos pasajes se pierden — y son muchas veces los más importantes clínicamente. Solución: micrófono cerca de la fuente. Lavalier en la solapa del paciente o micrófono direccional a 30-50 cm.
solapamientos paciente + terapeuta
Cuando el terapeuta refleja, valida o reformula mientras el paciente sigue hablando, las dos voces se superponen. Los modelos de IA con diarización de voz (separación de hablantes) ayudan, pero solo funcionan bien si las dos fuentes están claramente diferenciadas en el audio. Solución: dos micrófonos separados (ideal pero complejo), o un único micrófono cardioide bien colocado entre ambos a igual distancia.
ruido de fondo
Aire acondicionado, neveras, calefacción, calle, vecinos. El ruido constante de fondo lo saturan los algoritmos de reducción de ruido del software (nexmin lo aplica automáticamente con FFmpeg en la fase de normalización). Pero si el ruido es esporádico (un coche, una puerta, un ladrido), interfiere con el modelo. Solución: hora del día tranquila, ventana cerrada, aire acondicionado configurado antes del inicio.
setup recomendado según tipo de sesión
sesión presencial 1:1 — opción mínima viable (60-80 €)
Lavalier USB de gama media en la solapa del paciente o sobre la mesa entre ambos:
Conectar al ordenador o al móvil del terapeuta. Grabar a través de la web de nexmin (modo Voz) o aplicación de grabación nativa.
sesión presencial 1:1 — opción profesional (200-300 €)
Micrófono USB de mesa con patrón cardioide entre ambos a 30-50 cm:
Acompañar de una alfombra o cojín bajo la mesa para reducir rebote del suelo.
sesión por videollamada — la trampa más común
El audio de videollamadas (Zoom, Meet, Teams) llega al ordenador del terapeuta ya procesado por el sistema, con compresión, cancelación de eco activa y reducción de ruido. Eso suena bien al oído humano pero confunde a los modelos de transcripción IA — los algoritmos de procesado introducen artefactos que el modelo interpreta como palabras.
Recomendación nexmin para videollamada: usar el modo 'micrófono + audio del sistema' que captura ambas fuentes en paralelo — tu voz directamente del micrófono físico (sin compresión), y la voz del paciente desde el sistema. Si el audio del sistema falla (Safari, iOS) la grabación cae a modo solo-micro automáticamente y la captura sigue siendo útil porque tu propio micrófono recoge la voz del paciente que sale por los altavoces — siempre que no lleves auriculares.
grabadora dedicada — para máxima portabilidad (80-150 €)
Si haces sesiones fuera del consultorio (visitas a domicilio, talleres, retiros), una grabadora portátil dedicada ofrece calidad superior al móvil:
Después de la sesión, conectas la grabadora por USB y subes el archivo .WAV al sistema.
cómo procesa el audio nexmin (lo que pasa después de subirlo)
Saber qué le pasa al audio cuando llega al sistema ayuda a entender qué calidad necesitas en origen. Pipeline nexmin:
cinco errores que vemos repetidos
conclusión
Si solo puedes invertir en una cosa antes de empezar a grabar sesiones para transcripción con IA, invierte en un micrófono cardioide USB de gama media (60-110 €). El retorno en precisión, claridad y capacidad clínica del análisis posterior justifica el coste en menos de un mes. El software (cualquier software, no solo nexmin) puede hacer mucho con un audio limpio y muy poco con un audio malo. La mejor IA del mundo no recupera lo que el micrófono no captó.
prueba nexmin
Inteligencia clínica para psicólogos, coaches y terapeutas que buscan ir más allá.
Empezar ahora