martes, 18 de xuño de 2019

ACORTANDO LA DIVISIÓN DEL LENGUAJE DIGITAL DE INTERNET

ULET IFANSASTI / GETTY IMAGES


LOUISE MATSAKIS



Alrededor de la mitad de la población mundial todavía no tiene acceso a internet. Compañías como Facebook , SpaceX y Amazon quieren cambiar eso lanzando constelaciones de satélites al cielo, que harán que Internet vuelva a la Tierra. Pero incluso si estos proyectos tienen éxito, los gigantes de la tecnología pueden enfrentar un problema más fundamental para salvar la brecha digital: el lenguaje. 
Hay miles de lenguas diferentes que se hablan en todo el mundo, pero la mayoría del contenido en la web solo está disponible en unos pocos, principalmente en inglés. Más del 10 por ciento de Wikipedia está escrito en inglés, por ejemplo, y casi la mitad de los artículos del sitio están en dialectos europeos. Con frecuencia, un millón de personas más en línea se considera el próximo hito importante, pero cuando inician sesión por primera vez, es posible que esos usuarios encuentren que Internet tiene poco que ofrecer en los idiomas principales que hablan.
"Aproximadamente el 5 por ciento del mundo habla inglés en casa", dijo Juan Ortiz Freuler, miembro de la World Wide Web Foundation, durante un panel en la conferencia RightsCon en Túnez el miércoles, pero casi el 50 por ciento de la web está en inglés. "Freuler argumentó que Internet ha facilitado la" homogeneización cultural ", ahora que la mayoría de sus usuarios confían en Facebook y Google, y se comunican en los mismos idiomas dominantes. Pero el problema "no se debe a los cambios en la tecnología", dijo Kristen Tcherneshoff, directora de la comunidad de Wikitongues , una organización que promueve la diversidad lingüística. Las corporaciones y los gobiernos en gran medida no proporcionaron los recursos y el apoyo necesarios para poner en línea los idiomas más pequeños.
Muchas de las plataformas en línea más grandes se fundaron en Silicon Valley, y comenzaron principalmente con bases de usuarios de habla inglesa. A medida que se han expandido por todo el mundo y en diferentes idiomas, han estado poniéndose al día. Facebook ha enfrentado críticas por no emplear suficientes hablantes nativos para monitorear el contenido en países donde tiene millones de usuarios. En Myanmar, por ejemplo, la compañía durante años solo contó con un puñado de oradores birmanos, ya que los discursos de odio proliferaron. Facebook ha admitido que no hizo lo suficiente para evitar que su plataforma se use para incitar a la violencia en el país.
Otra parte del problema radica en el hecho de que se han creado relativamente pocos conjuntos de datos en estos idiomas que son adecuados para la capacitación de herramientas de inteligencia artificial. Tome Sinhala, también conocido como cingalés, que hablan alrededor de 17 millones de personas en Sri Lanka y se puede escribir de cuatro maneras diferentes. Los algoritmos de Facebook, entrenados principalmente en inglés y otros idiomas europeos, no se corresponden con ellos. Eso dificulta que la red social identifique automáticamente cosas como el discurso de odio en el país o que detenga el flujo de información errónea después de un ataque terrorista .
Pero Tcherneshoff dice que la diversidad del lenguaje es algo más que simpleza, que tiene que ver con la expresión. Las bromas, las emociones y el arte a menudo son difíciles, si no imposibles, de traducir de un idioma a otro. Señaló proyectos como el Mother Language Meme Challenge , que invitaba a personas a hacer memes en su lengua materna para el Día Internacional de la Lengua Materna de la Unesco en 2018. La idea, en parte, era demostrar cómo el humor a menudo está íntimamente ligado al lenguaje.
Mozilla es una organización que trabaja para crear conjuntos de datos de idioma de uso colectivo que cualquier desarrollador puede utilizar de forma gratuita, como Common Voice , que afirma que es "el conjunto de datos de voz más diverso del mundo". Incluye grabaciones de más de 42,000 personas en idiomas dominantes como el inglés y el alemán. , pero también galés y cabila. El proyecto está diseñado para dar a los ingenieros las herramientas que necesitan para construir cosas como programas de voz a texto en diferentes idiomas. Mark Surman, director ejecutivo de la Fundación Mozilla, cree que los conjuntos de datos de código abierto como Common Voice son una de las únicas formas viables de garantizar una mayor diversidad de idiomas en la tecnología emergente. En las empresas con fines de lucro, el tema "cae muy bajo en la escala económica", dijo durante el panel de RightsCon.
Traer más idiomas en línea puede ser, en última instancia, un ejercicio de preservación cultural, en lugar de utilidad. A pesar de los mejores esfuerzos de los defensores, es poco probable que haya tantos sitios web en yoruba, por ejemplo, como en francés o en árabe. Los nuevos usuarios de Internet pueden simplemente optar por navegar en su segundo o tercer idioma en lugar de su idioma nativo.
Al mismo tiempo, empresas como Google han creado programas que facilitan el acceso al contenido en línea en diferentes idiomas, como Google Translate. Google también le dio algunas de sus herramientas a Wikipedia para ayudar a traducir artículos, aunque todavía requieren una revisión cuidadosa por parte de hablantes nativos; Los editores de Wiki se han quejado de que las herramientas de Google a veces producen resultados de mala calidad . Por el momento, la promoción de la diversidad del lenguaje en línea aún requiere el esfuerzo concertado de los humanos.

Ningún comentario:

Publicar un comentario