Decisiones de diseño de Vocollect

El Reconocimiento del Lenguaje Hablado

El reconocimiento del lenguaje hablado (transcribiendo discurso humano en texto) es crítico para el éxito de cualquier sistema de voz de uso industrial. ¿La función crítica a medir es la exactitud – transcribe correctamente lo qué escucha? Y obligar a la computadora a realizar este reconocimiento del lenguaje hablado tal como exactamente lo hace un humano bajo todo el resto de las circunstancias.

Así que si queremos que una computadora logre gran exactitud de reconocimiento, debemos simplificar el problema. Afortunadamente, se han diseñado varias formas de hacer esto cubriendo las necesidades de distintas aplicaciones. Los diseñadores seleccionan cada una de estas alternativas en base a donde pretenden aplicación el sistema. En casi todos los casos, sin embargo, se negocia entre la exactitud y acotar el problema.

Otro factor de equilibrio buscado en el diseño de la solución es exactitud versus tiempo. Hacemos la suposición aquí que el diseñador debe crear un sistema que puede, efectivamente, interpretar una conversación de tiempo real con sus usuarios. Un procesamiento de cinco minutos para transcribir dos segundos de discurso solo sería aceptable en un número muy limitado de aplicaciones.

De aquí en más usaremos la palabra “entienda” para dar a entender, “puede transcribir de discurso en texto.”

Vocabulario Extendido y Vocabulario Reducido

Las palabras que esperamos que un sistema de reconocimiento del lenguaje hablado pueda transcribir comprenden su vocabulario.

Los seres humanos tienen un vocabulario muy extendido. Podemos comprender muchos miles de palabras.

Un reconocedor de lenguaje hablado capaz de escribir al dictado en una computadora también debe tener un vocabulario de miles de palabras. Tal reconocimiento es llamado un sistema de Vocabulario Extendido. En el otro extremo del espectro está un reconocedor diseñado sólo para decir si un usuario ha respondido una pregunta diciendo “sí” o “no” – claramente estamos frente a un sistema de Vocabulario Reducido. La distinción entre Vocabulario Reducido y Extendido no es rígida, pero mil palabras es una línea divisoria razonable. Los sistemas con vocabularios de entre varios centenares y un par de mil palabras son algunas veces descritos como Vocabulario Mediano.

En un mundo ideal, los diseñadores crearían sólo sistemas de reconocimiento del lenguaje hablado con Vocabulario Extendido. Pero hay dos factores que deben tenerse en cuenta para encontrar una solución de compromiso. En primera instancia, es bastante más difícil tener alta exactitud alta en el reconocimiento del habla con un Vocabulario Extendido y esto nos hace inclinar por un Vocabulario más pequeño.

Es verdad que reconociendo una palabra dentro de un vocabulario de cincuenta mil o más es mucho más difícil que distinguir entre “sí” y “no”. En segundo lugar, el reconocimiento de un vocabulario extendido requiere mucho más potencia de procesamiento (y memoria) que hacer lo mismo con un vocabulario más reducido.

Entonces, por ejemplo, puede ser difícil de incluir un sistema de reconocimiento del lenguaje hablado para Vocabularios Extendidos dentro de un dispositivo portátil. Afortunadamente, los sistemas de reconocimiento del lenguaje hablado requeridos por la industria, generalmente no requieren Vocabularios Extendidos. Una aplicación típica del almacén requiere un vocabulario de menos de cien palabras, mientras una aplicación de inspección puede requerir hasta alrededor mil.

Otro asunto de vocabulario que es a menudo importante para los usuarios de aplicaciones industriales es lo siguiente: Un Vocabulario Pequeño puede perfectamente ser aceptable, pero un Vocabulario Pequeño Fijo no lo es. Al diseñar el sistema debemos ser consientes que para tener una buena experiencia con los operadores del sistema, es mucho mas dificil si el reconocedor de lenguaje coloca restricciones al elegir las palabras: “Usted no puede usar esta palabra – usted debe usar aquella.”

El Continuo y Discreto

Los seres humanos fácilmente reconocen un dialogo en el cual el individuo expresa las palabras sin espacios audibles entre ellos, al formar una locución o una frase. Para reconocer esto, no sólo debemos comprender lo que el individuo expresa, sino que también decidir dónde los límites entre las palabras. Algunas veces es necesario usar conocimiento de muy alto nivel para realizar esta tarea.

Considere estas dos frases:

“Six teen idols were cavorting on stage.”

“Sixteen idols were cavorting on stage.”

Sólo una comprensión profunda del uso generalmente aceptado de la palabra “idol” nos deja tener por entendido que la primera frase es bastante más probable para estar en lo correcto que la segunda. Los antiguos reconocedores de lenguaje hablado, funcionaron sólo con discurso discreto. Los usuarios debían hacer una pausa perceptiblemente entre cada palabra. Hoy esta restricción es generalmente aplicada sólo en reconocedores de lenguaje hablado muy baratos (Ej., Para juguetes), o para resolver algunos problemas más sencillos (Ej., Reconociendo uno de tantos miles de nombres de compañías para proveer cotizaciones de títulos). En uno u otro caso, el sistema debe decir al usuario solo una frase para la cual fue creado: “Diga el nombre de la compañía.”

Para aplicaciones industriales, un reconocimiento de lenguaje hablado discreto no es aceptable. Tener que hacer una pausa entre palabras (por ejemplo, al introducir una secuencia de dígitos) es lento y frustrante. Todos el reconocimiento de lenguaje hablado para aplicaciones industriales deberían ser capaces de comprender lenguaje hablado continuo.

Aunque esto hace la tarea de reconocimiento más difícil, existen hoy herramientas de reconocimiento de lenguaje hablado continuo de alta exactitud para aplicaciones del industrial.

Dependiente o Independiente del Orador

Es más fácil de comprender el discurso de alguien si el oyente sabe quién habla, en particular si el orador tiene un patrón inusual de discurso o un acento fuerte. Esa declaración es incluso más verdadera para el reconocimiento de lenguaje hablado basado en computadoras que para personas, y para algunas aplicaciones, podemos hacer uso de este hecho para mejorar exactitud de reconocimiento dramáticamente.

En algunas aplicaciones, no cabe requerir que los usuarios se identifique para el sistema, o utilizar tiempo para que el sistema practique escucharlos, por ejemplo cuando llamamos a un asistente telefónico automatizado. En un Depósito, podemos usar ambos. De hecho para un reconocimiento de Vocabulario Reducido, perfectamente podemos hacer uso de la memoria de una computadora para mejorar esta función dramáticamente para cada usuario. Aun para aquellos usuarios con patrones de lenguaje inusuales o los acentos firmes. Podemos almacenar los patrones de voz de cada usuario, para cada palabra el software de reconocimiento de voz estará obligado a entender. Aunque Judy no dirá “uno” en exactamente la misma forma todo el tiempo, si el software de reconocimiento sabe “como” Judy habla, y tiene acceso a que sus patrones personales de voz, podrá transcribir su discurso bastante más exactamente que si intentase comparar su discurso a todas las formas de decir, “uno” o para un promedio de cómo lo dicen la mayoría de personas.

Tal sistema es llamado dependiente del orador, quiere decir que depende para su exactitud conocer quién es el que hablar con ella. Un sistema orador independiente no hace uso de ese conocimiento, y es por consiguiente intrínsecamente menos preciso.

El proceso de dejar al software de reconocimiento de lenguaje practicar con un usuario se llama entrenamiento. El sistema de reconocimiento de lenguaje dependientes del orador, son por consiguiente algunas veces llamados “Sistemas entrenados”, y los sistemas independientes del orador se los llama “Sistemas no entrenados”.

Para una solución de reconocimiento de lenguaje con Vocabulario Reducido el proceso de entrenamiento generalmente consta haciendo el usuario hablar para el sistema (uno o más veces) todo el subconjunto de palabras incluidas en dicho vocabulario. Esto algunas veces se llama entrenamiento de enrolamiento. Para un sistema de Vocabulario Extendido entrenar cada palabra no es práctico. El orador los sistemas de vocabulario extendido generalmente usa un proceso de adaptación, en el cual el usuario lee algunos pasajes conocidos de discurso para el sistema, y los sistemas dibujan conclusiones acerca de los patrones de discurso del usuario.

Debe repararse que los sistemas de reconocimiento de voz dependientes del operador, debe tener previsto almacenando los patrones de voz de cada usuario, en cada computadora y debe tener la forma de que el usuario pueda enrolarse a una computadora cualquiera y esta pueda recuperar el patrón correspondiente al usuario. Hoy esto requiere de poco esfuerzo, así es que no lo consideramos mucho de un condicionante en el diseño.

¿Cómo escoge un diseñador durante el proceso de creación del sistema entre un sistema orador dependiente y un sistema independiente del orador? Una solución de reconocimiento que permite ser adiestrada, típicamente tendrá al menos el doble de exactitud que un sistema no entrenado. La decisión está entre el tiempo que el usuario debe dedicarse a entrena el sistema y el tiempo que se ganará gracias al aumento de exactitud generado por el entrenamiento. Para un sistema de uso industrial de vocabulario reducido esta decisión está muy clara. Entrenar el sistema requiere una inversión de alrededor quince minutos (típica para una aplicación del almacén), y el usuario utilizará el sistema durante quizá dos mil horas en el transcurso de un año. Aun con una mejora diminuta en la exactitud como resultado de entrenarse, pagará inmediatamente la productividad conseguida a través de la exactitud aumentada. Y es generalmente aceptado que un sistema de reconocimiento entrenado normalmente tendrá al menos dos veces más exactitud (la mitad de tasa de errores) que uno no entrenado.

Una de las principales ventajas de un sistema de reconocimiento adiestrado para aplicaciones de la industrial, es que un sistema entrenado no se preocupa por patrones inusuales de discurso, acentos, o aun lenguaje. Simplemente compara que los patrones del habla que registró durante el entrenamiento van en procesión con los únicos que oye durante el uso. Un sistema independiente del orador, sin embargo, justamente no puede aceptar (por ejemplo) otra forma de la palabra “uno.” Los usuarios deben conformarse a las expectativas del sistema de sus patrones de discurso. Para la población en edad laboral en una fábrica o un piso del almacén, donde existe una gran variedad de acentos y formas de lenguajes, esto podría no ser práctico.

Usuarios ocasionales o de tiempo completo

Otro factor a tener en cuenta en el momento de tomar decisiones del diseño de sistemas de reconocimiento de voz es conocer aproximadamente si trabajaremos con usuarios ocasionales o usuarios de jornada completa. Para usuarios ocasionales, la velocidad de entrada de datos es menos importante que enfrentarse al discurso extraño (el discurso que el usuario quiere que el software de reconocimiento ignore), mientras para usuarios de jornada completa el quiere lo contrario.

Una aplicación de reconocimiento del habla diseñada para el uso casual puede, por ejemplo, requerir que el usuario empiece y acabe cada expresión con una palabra específica (“listo, 1, 2, 3, enter”), y denegará cualquier palabra del usuario que no está exactamente en el formato correcto. La misma aplicación diseñada para el uso de jornada completa esperaría una expresión de la forma “1, 2, 3” a cambio, podría ser más fácil de interpretar una expresión extraña como una secuencia de dígitos. En las aplicaciones industriales de almacenamiento, donde el usuario puede estar entrando centenares de cadenas de dígito por hora durante diez o más horas al día, se obtiene una reducción de un 40 % en la cantidad de palabras que hicieron falta ingresar, y esto es vastamente más importante que una mejora modesta en la habilidad para denegar expresiones extrañas.

Un sistema de reconocimiento de voz discreto también puede ser apropiado para usuarios informales. El hecho que cada palabra debe estar rodeada por el silencio deja al sistema de reconocimiento denegar cualquier expresión que consta de palabras múltiples. Otra vez, sin embargo, para cualquier usuario de jornada completa, la incapacidad para introducir una secuencia de palabras habladas continuamente sería un “asesinato a la productividad” y una fuente de frustración insoportable.

Un sistema de reconocimiento orador independiente debiera ser más apropiado para usuarios casuales, si no es posible para ellos puedan dedicar los quince minutos requerido para entrenar un sistema de reconocimiento dependiente del orador. Ambos usuarios, ocasionales o de tiempo completo, trabajando con un sistema de reconocimiento independiente del orador debiera detectar correctamente y procesar una gran variedad de acentos, dialectos, y las propiedades del habla. Estos sistemas son naturalmente más propensos para interpretar mal algunas palabras, o interpretar otros sonidos como palabras que deberían ser reconocidas.

Una opción que puede proveer “el mejor de ambos mundos” es dejar al operador cambiar el modo del reconocimiento con locuciones simples e intuitivas. En el caso de Vocollect, por ejemplo, nuestro reconocimiento típicamente funciona en el modo del usuario de jornada completa, minimizando la cantidad de tiempo del usuario y evitando errores por falta de datos.

Sin embargo, simplemente diciendo, “Talkman, dormir”, el usuario puede meter al Talkman en un modo especial, en cuál la única locución que lo devuelve a la operación normal es “Talkman, despertar” con esa locución precedida y seguido de silencios. Mientras está “dormido” el reconocimiento estará casi completamente inmune de cualquier activación accidental por algunas palabras u otro ruido exterior.

Decisiones de diseño de Vocollect

Los productos de Vocollect usan un vocabulario continuo, pequeño (y variable), reconocimiento de voz dependiente del orador. Los usuarios pueden hablar naturalmente, hacer una pausa, porque el reconocimiento es continuo. El reconocimiento es con vocabulario reducido porque eso ofrece mayor exactitud, y las aplicaciones industriales no requieren un vocabulario extendido. El vocabulario es variable, y por consiguiente puede ser modificado para cada aplicación (o aun por cada usuario). Y el reconocimiento es dependiente del orador porque la inversión de entrenamiento es pequeña y el repago es inmediato respecto de la mejora productividad.

Finalmente, nuestros productos y aplicaciones son claramente diseñados y construidos para usuarios de jornada completa, no ocasionales. Fuertemente enfatizamos productividad y facilidad de uso (la reducción en la cantidad de palabras requeridas al usuario). Mientras es posible, por ejemplo, para crear diálogos Talkman que no requieren que palabras específicas empiecen y acaben cada expresión, nosotros muy raras veces recomiende hacer eso. Al mismo tiempo, nuestro reconocimiento de voz usa numerosas técnicas para despejar el dialogo de los sonidos extraños generando una confianza alta en el reconocimiento. Y la posibilidad para ponerlo a dormir y despertarlo con locuciones simples provee un mecanismo simple, intuitivo para permitir conversaciones con el entorno. Para las raras ocasiones cuando estas técnicas fracasan (y para otras más comunes cuando el usuario habla mal!), se han incorporado al Talkman técnicas de diseño que aceptan fácil edición de datos ingresados erróneamente.

Como los sistemas de reconocimiento de voz convierten el habla humana en algo inteligible y significativo para las computadoras, la tecnología de síntesis del habla le permite a las computadoras hablarles a los humanos. Hay dos técnicas de síntesis del habla bien diferenciadas disponibles para los diseñadores de sistemas.

La Voz digitalizada (también llamada Record and Playback)

La voz digitalizada es lo que oímos cuando un contestador automático nos habla por el teléfono. La computadora está esencialmente actuando como una grabadora. Tiempo atrás, una persona hablaba por un micrófono, y la voz se convertía a números (digitalizado) así la computadora lo podría almacenar. A petición, la computadora recuperaba las grabaciones digitalizadas de la voz y las reconstituye en sonido.

La voz digitalizada puede ser de calidad muy alta. Sin embargo, alguien la debe registrar, y la computadora debe almacenar cada palabra o que la computadora deba expresar durante la operación

Esto puede presentar un problema de almacenamiento para aplicaciones grandes, e invariablemente presenta una preocupación de mantenimiento. ¿Si la aplicación debe modificarse, el orador original si todavía está disponible debe registrar nuevas palabras y locuciones? ¿Y si no está disponible el mismo operador, será aceptable múltiples voces de diferentes locutores, o debiéramos grabar nuevamente la aplicación completa? También, crear grabaciones de voz de alta calidad generalmente requiere de equipo sofisticado y quizá lo más difícil, un locutor profesional.

Una limitación significativa de la voz digitalizada en algunas aplicaciones es que la computadora sólo puede hablar locuciones que han estado pregrabadas (o que puedan ser creado a través de la concatenación). Esto es por consiguiente funcionalmente imposible para crear una aplicación en la cual la computadora habla, por ejemplo, descripciones del producto, o en la cual la computadora le puede hablar a su operador mensajes del texto que le son enviados de otra máquina (Ej., Un supervisor introduciendo un mensaje a ser dicho a un operador).

De Texto A Voz (TTS)

Una computadora con software de texto a voz (Tex-To-Speech) puede convertir texto de la computadora directamente en sonidos hablados. El sistema texto a voz quita todas las restricciones y los dolores de cabeza de mantenimiento de voz digitalizada, como la computadora puede hablar cualquier texto presentado (Ej., Este documento) sin anterior conocimiento, y para eso no hay que tener a alguien que grave y mantenga locuciones de voz. Una computadora usando sistema texto a voz, sin embargo, suena como a una computadora hablando. Claramente no es humano. En algunas aplicaciones esto puede presentar un problema. No es siempre fácil de comprender alguien con un acento nuevo la primera vez que lo escuchamos. Pero como oyentes nosotros los humanos somos sumamente adaptables. Denos algunos minutos y nosotros fácilmente podemos descifrar aun acentos muy fuertes. El acento suave de una computadora usando sistema texto a voz es muy fácil entender, especialmente para aplicaciones de uso industrial, en el cual los usuarios típicamente oyen las mismas palabras muchas veces cada día.

Decisiones del diseño de Vocollect

Vocollect ofrece ambos formatos de conversión en sus productos, de texto a voz y digitalizado. Fuertemente creemos, sin embargo, que las ventajas de sistema texto a voz (TTS) pesan más que la leve pérdida en la calidad de la voz. Por consiguiente recomendamos que nuestros clientes utilizan la opción texto a voz, y hoy todos nuestros clientes hace eso.

¿Cliente delgado o Cliente rico?

La inteligencia (el procesamiento de datos) en una aplicación que involucrando a usuarios que son remotos de la computadora principal es siempre distribuida entre la computadora del usuario (el cliente) y el sistema remoto (el servidor). El término cliente delgado, describe un dispositivo del cliente que tiene poco procesamiento de datos, tradicionalmente una terminal conectada por cable o en forma inalámbrica con un cliente lo más delgado (usualmente una terminal tonta). Un cliente rico realiza una gran cantidad de procesamiento localmente, y usa el servidor remoto primordialmente como un dispositivo de almacenamiento de datos.

En un sistema de voz para uso industrial la decisión de usar un cliente rico o delgado es algo que los diseñadores deben definir: Donde se realiza el procesamiento de la voz, y cuánto de la lógica reside en el cliente.

El Procesamiento De Voz

Todos los sistemas de voz de aplicaciones industriales sintetizan la voz en el cliente. Para el reconocimiento del lenguaje hablado, sin embargo, los diseñadores han hecho elecciones diferentes al momento de decidir donde procesar los datos. En un sistema usando un servidor de reconocimiento de voz, la señal de la voz capturada por el micrófono de la computadora es procesada en el dispositivo cliente donde es digitalizada, y luego es transmitido sobre la red inalámbrica hacia un servidor que realiza el trabajo de reconocimiento del lenguaje hablado para muchos dispositivos simultáneamente. En un sistema de reconocimiento de voz basado en el cliente, todo ese trabajo tiene lugar en la terminal, sin servidor y ninguna transmisión de datos.

En teoría, la mayor capacidad de procesamiento disponible se encuentra en el servidor, y esto permite ejecutar poderosos algoritmos de reconocimiento del lenguaje hablado. En la práctica, dado los grandes avances durante los últimos años en la capacidad que puede incorporarse en un dispositivo móvil, y dado la naturaleza del problema de reconocimiento del lenguaje hablado para las aplicaciones de uso industrial, no hay una verdadera ventaja para colocar un sistema de reconocimiento de voz basado en un servidor. Sin embargo, hay algo de desventajas significativas.

La primera razón es la escala. ¿Cuántos dispositivos pueden ser soportados por un solo servidor de un sistema de reconocimiento de voz? Aun si el servidor es diez veces más poderosos que un dispositivo para uso individual y portátil, aun así, debiéramos poner muchos servidores para soportar los requerimientos de grandes almacenes. ¿Soporta el sistema el uso de múltiples servidores? ¿Es práctico para soportar un “servidor grande de campo” en el típico ambiente del almacén?

En segundo lugar el retraso, o latencia. Los usuarios son muy sensibles con los retrasos en la respuesta de un sistema de reconocimiento de voz. ¿Qué ocurrirá cuándo múltiples terminales envían los datos al servidor al mismo tiempo? La red de radiofrecuencia complica el asunto de latencia. Las redes de datos de radiofrecuencia, a diferencia de la red de teléfonos no han sido diseñadas para minimizar el tiempo de latencia. Estas, han sido diseñadas para garantizar la integridad de la entrega de datos. Múltiples terminales puede colocarse en la misma zona, generando retrasos en la transmición de datos (este problema se complicado porque la voz agranda dramáticamente la cantidad de datos que deben ser movidos sobre la red). Este asunto es en particular importante para operaciones de Picking de alta velocidad.

Vocollect ha recibido reacciones negativas de clientes con retrasos cerca de dos terceras partes de un segundo (y como consecuencia esos retrasos se redujeron a menos de una cuarta parte de un segundo). Un sistema basado en servidores, simplemente no puede responder en este nivel de tiempos. La respuesta es que las redes inalámbricas todavía están en un orden de magnitud demasiado lento.

La tercera parte es cobertura de red. La cobertura de WLANs en las industrias hoy es generalmente excelente. Sin embargo, los asuntos temporales, como el movimiento estacional de productos dentro de un almacén o la caida de parte de la red (el Access Point, el cableado, el energía electrica, etc.), puede crear puntos muertos de cobertura. Un sistema de reconocimiento de voz basado en servidores será inútil en estas condiciones.

Una preocupación final para un sistema de reconocimiento de voz basado en servidores se convierte en un solo punto de falla para todo el sistema. El servidor por consiguiente debe ser tratado como un dispositivo de misión crítica, con redundancia completa. Tales sistemas no son baratos.

Decisiones del diseño de Vocollect

Todos los productos Vocollect realizan todo procesamiento de voz en el dispositivo que lleva el operario. Por consiguiente, son diseños de cliente ricos. Le asignamos un esfuerzo considerable de investigación y desarrollo a optimizar nuestros algoritmos sumamente sofisticados de reconocimiento del lenguaje hablado para correr muy eficazmente en nuestros dispositivos que se pueden llevar puestos. Y hacemos esto porque firmemente creemos que muchos se benefician de la arquitectura de procesamiento de voz en el cliente.

Lógica de Funcionamiento

Consideremos un sistema de preparación de pedidos para un almacén.

En un extremo de diseño con cliente delgado, el dispositivo que lleva el operador debe comunicarse con el servidor (el WMS o sistema administrativo de picking) a cada paso en cada operación de picking, al transmitir la dirección de la posición, la verificación de la posición, la determinación de la cantidad a seleccionar, y la verificación.

En el otro extremo, trabajando con un cliente rico el sistema administrativo del almacén (WMS) podría transmitir una lista completa de picking hacia el dispositivo, y (quizá una hora más tarde) el dispositivo enviaría al servidor la novedad que todos los artículos han sido seleccionados.

La decisión de diseño está entre tener el control e información de tiempo real, garantizando respuesta rápida para el usuario a pesar de la carga de RADIOFRECUENCIA de la red y del servidor.

Con relación a información de tiempo real y el control, el requisito operativo primario para un sistema de selección de orden es generalmente para saber inmediatamente que el producto ha sido removido de una posición (o que una posición se ha vuelto vacía). Un sistema con cliente delgado logra esto automáticamente. Un sistema con cliente rico fácilmente puede hacer eso con una modificación menor. Cuando un operador quiere comenzar a trabajar, el WMS transmite una lista completa de picking hacia el dispositivo del operador. Cada vez que el operador completa una operación, el dispositivo transmite los datos de picking de regreso al WMS. En un sistema bien diseñado esta transmisión de datos ocurre en background, mientras el operador continúa trabajando. Si en ese momento el operador tuviese un hueco en la cobertura de radiofrecuencia, la terminal simplemente retiene la información de elección registra hasta que los puede transmitir.

Una razón secundaria para querer el control e información de tiempo real en un sistema de picking de órdenes es dejar al WMS modificar un recorrido de picking mientras está en curso. En teoría esto dejaría al WMS tener la ruta alternativa para el operador si se supiera que esa ubicación está vacía.

Se puede alcanzar una solución de compromiso entre el cliente delgado y cliente rico. El WMS podría enviar dos o tres registros de picking al dispositivo al principio de un picking, y luego enviar uno más cada vez que el operador reporta la terminación de una selección. Este diseño garantiza buen tiempo de respuesta para el operador (porque la información para la siguiente operación de selección está disponible en el dispositivo), pero finalmente dejaría de funcionar si “se cae” el sistema de radiofrecuencia.

Decisiones del diseño de Vocollect

Vocollect ha optado por un diseño de cliente rico en todos nuestros productos. Sin embargo, el software que se puede poner en el dispositivo fácilmente puede ser configurado para funcionar como un cliente delgado, o aun como una terminal tonta.

Para los sistemas de picking, recomendamos a nuestros clientes, siempre que sea posible, configuren nuestro equipo en el modo de cliente rico: El WMS envía un recorrido completo de picking a la terminal, y a medida que cada operación es completada se informa al servidor (de forma invisible para el operador). Creemos que esta modalidad de operación ofrece el mejor escenario en el diseño global del sistema, garantizando respuesta muy rápida para el operador del dispositivo mientras provee la información en tiempo real a las personas y software operado en el almacén.

Otras notas relacionadas: