Empresa Amazon trabaja con inteligencia artificial para deshacerse del código de barras
Amazon quiere deshacerse de los códigos de barras. Para ello, a través de Amazon Robotics desarrolló un modelo inteligencia artificial (AI, por sus siglas en inglés) que utiliza una cámara para identificar los productos, de modo que ya no sea necesario escanearlos.
Los códigos de barras son fundamentales en los procesos de embarque de Amazon. Sin embargo, el escaneo de productos, además de que toma tiempo y es un proceso repetitivo, requiere de una persona, pues los robots no son lo suficientemente versátiles como para manipular un producto y realizarlo.
En una publicación de blog, la compañía compartió detalles del proceso conocido como identificación multimodal (MMID, por sus siglas en inglés).
El conjunto de datos de imágenes masivamente multilingüe (MMID)
MMID es un conjunto de datos multilingüe a gran escala de imágenes combinadas con las palabras que representan recopiladas en la Universidad de Pensilvania . El conjunto de datos es doblemente paralelo: para cada idioma, las palabras se almacenan en paralelo a las imágenes que representan la palabra y en paralelo a la traducción de la palabra al inglés (y las imágenes correspondientes).
Con diferencia, el conjunto de datos más grande de su tipo, tiene 98 idiomas (incluido el inglés) y hasta 10 000 palabras por idioma. (y muchos más para inglés).
El primer paso consistió en capturar fotografías de los productos mientras se movían por la banda transportadora. El modelo de AI toma valores como dimensiones, características visuales, texto del empaque o peso.
Después, con la ayuda de cámaras fotográficas y de profundidad, se crea una huella dactilar de cada objetoy posteriormente, los investigadores tradujeron los datos de cada imagen en vectores y construyeron un modelo de aprendizaje automático para extraerlos y asociarlos al producto con que se realizará la comparación.
El gigante del comercio electrónico afirma que el proyecto ya ha demostrado su valía en los centros logísticos de Hamburgo y Barcelona.
El gerente de Ciencias aplicadas en el grupo de Visión por computadora de Amazon en Berlín, Nontas Antonakos, explicó que “resolver este problema, para que los robots puedan recoger artículos y procesarlos sin necesidad de buscar y escanear un código de barras, es fundamental”.
Aseguró que esto les ayudará a llevar los paquetes a los clientes de manera más rápida y precisa. “MMID es una piedra angular para lograrlo”, dijo.
El conjunto de datos de imágenes masivamente multilingüe (MMID)
Proporcionado por: Penn PNL , parte del programa de patrocinio de datos abiertos de AWS
Este producto forma parte del programa de patrocinio de datos abiertos de AWS y contiene conjuntos de datos que están disponibles públicamente para que cualquiera pueda acceder y utilizar. No se requiere suscripción. A menos que se indique específicamente en la documentación del conjunto de datos aplicable, AWS no proporciona ni mantiene los conjuntos de datos disponibles a través del Programa de patrocinio de datos abiertos de AWS.
Descripción
MMID es un conjunto de datos multilingüe a gran escala de imágenes combinadas con las palabras que representan recopiladas en la Universidad de Pensilvania. . El conjunto de datos es doblemente paralelo: para cada idioma, las palabras se almacenan en paralelo a las imágenes que representan la palabra y en paralelo a la traducción de la palabra al inglés (y las imágenes correspondientes).
https://aws.amazon.com/ y itmastersmag.com
MMID proporciona imágenes de palabras en 99 idiomas, empaquetadas por idioma. Para los 99 idiomas, también proporciona imágenes para la traducción al inglés de cada palabra. El conjunto de datos está empaquetado por idioma, por lo que puede descargar cualquiera de los idiomas que le interesen. Debido a su tamaño, MMID se distribuye para cada idioma en algunas formas:
- [paquete de imágenes] El paquete de imágenes contiene 100 imágenes para cada una de hasta 10,000 palabras en cada uno de los 99 idiomas, así como los metadatos correspondientes.
- [paquete de mini imágenes] El paquete de mini imágenes contiene 1 imagen para cada palabra en cada uno de los 99 idiomas, así como los metadatos correspondientes.
- [metadatos] Los metadatos son un
.jsonl
archivo que proporciona URL a imágenes, miniaturas y las páginas web en las que aparecieron. - [diccionario] El archivo del diccionario simplemente contiene cada palabra para cada idioma y el índice utilizado para identificarla en MMID.
- [paquete de texto] El paquete de texto contiene archivos WARC con el contenido de cada página web en la que aparecieron las imágenes en MMID.
- [Paquete CNN] El paquete CNN contiene imágenes destacadas de CNN para un subconjunto de idiomas, utilizadas en nuestro documento de imágenes para traducción de ACL.