TÉCNICO

El setup de audio para grabar sesiones: la pieza que casi nadie cuida y mejora la transcripción IA un 20%

El audio es la pieza más infravalorada del software clínico con IA. Una buena captura sube la precisión de la transcripción del 92% al 97%. Guía práctica con hardware concreto y configuraciones.

6 de mayo de 2026

Si has probado IA de transcripción con sesiones clínicas y has obtenido resultados decepcionantes, antes de cambiar de software conviene revisar la pieza más invisible del flujo: el audio. La diferencia entre una transcripción del 92% de precisión y una del 97% no está casi nunca en el modelo de IA — está en cómo capturas el sonido. Esta guía es práctica, concreta y con hardware específico para terapeutas en consulta privada.

por qué el audio importa más que el modelo de IA

Los modelos de transcripción de última generación (Gemini 3 Flash, Whisper Large v3, Soniox v4, ElevenLabs Scribe) ofrecen precisión cercana al 99% con audio de estudio. En audio realista de consulta — eco de pared, voz baja emocional, solapamientos del paciente y el terapeuta, silencios largos — esa precisión cae al 90-95%. La diferencia entre modelos en condiciones reales es solo de 2-3 puntos porcentuales. La diferencia entre un setup de audio mediocre y uno bueno es de 5-10 puntos. Es decir: mejorar el audio te da más precisión que cambiar de software.

los cuatro enemigos del audio clínico

eco de pared

La consulta típica tiene paredes blancas, suelo duro, poco mobiliario tapizado. El sonido rebota, llega al micrófono varias veces con milisegundos de retraso, y el modelo de IA interpreta ese eco como ruido. Solución mecánica: cualquier elemento textil pesado (cortina gruesa, alfombra, sofá, cojines) reduce el rebote. Solución técnica: micrófono con patrón polar cardioide o supercardioide — solo capta lo que está delante, ignora reflejos laterales.

voz baja emocional

Los pacientes en momentos de carga emocional bajan el volumen, susurran, casi suspiran. Si el micrófono está lejos (ordenador a 1.5 m), esos pasajes se pierden — y son muchas veces los más importantes clínicamente. Solución: micrófono cerca de la fuente. Lavalier en la solapa del paciente o micrófono direccional a 30-50 cm.

solapamientos paciente + terapeuta

Cuando el terapeuta refleja, valida o reformula mientras el paciente sigue hablando, las dos voces se superponen. Los modelos de IA con diarización de voz (separación de hablantes) ayudan, pero solo funcionan bien si las dos fuentes están claramente diferenciadas en el audio. Solución: dos micrófonos separados (ideal pero complejo), o un único micrófono cardioide bien colocado entre ambos a igual distancia.

ruido de fondo

Aire acondicionado, neveras, calefacción, calle, vecinos. El ruido constante de fondo lo saturan los algoritmos de reducción de ruido del software (nexmin lo aplica automáticamente con FFmpeg en la fase de normalización). Pero si el ruido es esporádico (un coche, una puerta, un ladrido), interfiere con el modelo. Solución: hora del día tranquila, ventana cerrada, aire acondicionado configurado antes del inicio.

setup recomendado según tipo de sesión

sesión presencial 1:1 — opción mínima viable (60-80 €)

Lavalier USB de gama media en la solapa del paciente o sobre la mesa entre ambos:

Boya BY-M1 (~25 €): cardioide, conector 3.5mm, requiere adaptador USB. Funciona razonablemente bien para empezar.

Rode SmartLav+ (~70 €): cardioide profesional, salida 3.5mm. Buen balance precio-calidad. Necesita adaptador para PC/Mac.

Conectar al ordenador o al móvil del terapeuta. Grabar a través de la web de nexmin (modo Voz) o aplicación de grabación nativa.

sesión presencial 1:1 — opción profesional (200-300 €)

Micrófono USB de mesa con patrón cardioide entre ambos a 30-50 cm:

Rode NT-USB Mini (~110 €): cardioide, plug & play USB-C. Captura limpia, manejo del eco aceptable.

Blue Yeti Nano (~100 €): cardioide ajustable, 4 patrones polares disponibles en el modelo grande. Versátil.

Shure MV7 (~250 €): híbrido USB+XLR, cardioide profesional. Mejor calidad si el presupuesto lo permite.

Acompañar de una alfombra o cojín bajo la mesa para reducir rebote del suelo.

sesión por videollamada — la trampa más común

El audio de videollamadas (Zoom, Meet, Teams) llega al ordenador del terapeuta ya procesado por el sistema, con compresión, cancelación de eco activa y reducción de ruido. Eso suena bien al oído humano pero confunde a los modelos de transcripción IA — los algoritmos de procesado introducen artefactos que el modelo interpreta como palabras.

Recomendación nexmin para videollamada: usar el modo 'micrófono + audio del sistema' que captura ambas fuentes en paralelo — tu voz directamente del micrófono físico (sin compresión), y la voz del paciente desde el sistema. Si el audio del sistema falla (Safari, iOS) la grabación cae a modo solo-micro automáticamente y la captura sigue siendo útil porque tu propio micrófono recoge la voz del paciente que sale por los altavoces — siempre que no lleves auriculares.

grabadora dedicada — para máxima portabilidad (80-150 €)

Si haces sesiones fuera del consultorio (visitas a domicilio, talleres, retiros), una grabadora portátil dedicada ofrece calidad superior al móvil:

Tascam DR-05X (~110 €): grabadora estéreo, micrófonos incorporados, grabación 96kHz/24-bit, salida USB. Estándar de facto para periodistas y podcasters.

Zoom H1n (~110 €): alternativa más compacta, similares prestaciones.

Después de la sesión, conectas la grabadora por USB y subes el archivo .WAV al sistema.

cómo procesa el audio nexmin (lo que pasa después de subirlo)

Saber qué le pasa al audio cuando llega al sistema ayuda a entender qué calidad necesitas en origen. Pipeline nexmin:

Subida segura cifrada al bucket en Madrid (GCP europe-southwest1).

Normalización con FFmpeg: paso a mono, downsampling a 16kHz, compresión MP3 a 32kbps. Esto es óptimo para Gemini y otros modelos STT — más resolución no aporta precisión y infla coste.

Algoritmo de reducción de ruido aplicado en la fase de normalización (atenúa el aire acondicionado, neveras, tráfico constante).

Audio normalizado entra a Scriba para transcripción + estructuración. El audio original se gestiona según el tier de privacidad del paciente (LEGACY, STANDARD, GHOST).

cinco errores que vemos repetidos

Grabar con el micrófono interno del portátil a 1 m del paciente. Tira la precisión al 88-90% incluso con modelos top.

Usar auriculares Bluetooth como micrófono. Compresión agresiva, latencia, dropouts esporádicos. Útil para videollamada en directo, malo para grabación clínica.

Activar reducción de ruido agresiva del sistema (Krisp, NVIDIA Broadcast). Eliminan también partes de voz que el modelo necesita.

No revisar el nivel de audio antes de empezar. Si el indicador toca rojo en momentos normales, hay distorsión (clipping) que ningún modelo recupera. Bajar la ganancia.

Cambiar de micrófono entre sesiones sin avisar al sistema. Si una sesión es lavalier y otra es interno del portátil, la voz del mismo paciente suena distinta y la diarización (separación de hablantes) puede confundirse.

conclusión

Si solo puedes invertir en una cosa antes de empezar a grabar sesiones para transcripción con IA, invierte en un micrófono cardioide USB de gama media (60-110 €). El retorno en precisión, claridad y capacidad clínica del análisis posterior justifica el coste en menos de un mes. El software (cualquier software, no solo nexmin) puede hacer mucho con un audio limpio y muy poco con un audio malo. La mejor IA del mundo no recupera lo que el micrófono no captó.

14 días gratis · sin tarjeta

prueba nexmin

Inteligencia clínica para psicólogos, coaches y terapeutas que buscan ir más allá.

Empezar ahora