¿Estructurar el Big Data?

In Tecnología by Jesús García BlancoLeave a Comment

El Big Data es un término anglosajón que hace referencia a la cantidad de información que el ser humano genera actualmente con todos los medios tecnológicos que tenemos a nuestro alcance. Aquí se incluyen tanto documentos científicos, datos sobre la meteorología, noticias, publicaciones en las redes sociales… Según los últimos cálculos las cifras son escalofriantes:

 

  • Cada dos días, la humanidad crea tanta información como lo había hecho la civilización hasta 2003
  • La cantidad de información media a la que una persona se expone en un día, es la misma a la que una persona del siglo XV estaba expuesta durante toda su vida
  • La cantidad de información generada durante el primer día del nacimiento de un bebé hoy en día equivale a 70 veces la información contenida en la librería del congreso de US.

Fuente: The Human Face of Big Data

 

Estos datos son apabullantes, según un estudio de IBM se calcula que estamos generando 2.5 quintillones de bytes diariamente. Para que os hagáis una idea de las dimensiones:

1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000.

IBM también incluye datos denominados M2M (máquina a máquina) como pueden ser los localizadores GPS de los aviones, barcos, contenedores… datos que no son utilizados a menos que exista algún problema pero que son almacenados igualmente por las empresas encargadas de gestionarlas y que ayudan a aumentar la cantidad de información generada.

 

¿Cómo se gestiona toda esta información?

Bueno, a encontrar una respuesta a esta pregunta es a lo que actualmente se dedican innumerables empresas con un buen presupuesto y por el momento están bastante lejos de encontrar la solución definitiva.

Personalmente considero que nuestro problema para gestionar esto reside en nuestra forma de estructurar la información. Creo que se trata de un método anticuado y obsoleto, porque resulta imposible a día de hoy organizar los datos si cada universidad, cada biblioteca, cada medio de comunicación y cada red social tienen un sistema diferente. Necesitamos crear un sistema globalizado, independiente y de código abierto lo suficientemente amplio como para cualquier empresa o usuario pueda acceder a él y adaptarlo a sus usos.

A mi me gusta siempre poner el ejemplo de las noticias: si hablamos del ébola deberíamos poder organizar un sistema que fuese capaz de organizar todas las noticias y documentos mundiales en torno a los diferentes sucesos. Por ejemplo ahora se está investigando una vacuna que, dicen, puede ser la definitiva; mi propuesta sería asignar un código a ese “tema” y cada vez que se publique una noticia se archive incluyendo ese código en una base de datos mundial, cada vez que se publique un tweet sobre ese medicamento específico, sus pruebas, sus resultados y sus fallos se incluya el HT #kjsh8nqmpijb79032h (el identificador único). De esta forma si alguien dentro de 1.000 años (si es que no nos hemos cargado la tierra antes) quiere recopilar toda la información disponible en la tierra sobre esa vacuna concreta pueda hacerlo fácil y organizadamente: documentos científicos, publicaciones, intervenciones en los medios…

 

Un hashtag (HT) identificativo

Twitter fue el primero en establecer sistemas de organización bastante buenos para que todos los usuarios mundiales de su red pudiesen hablar sobre un tema concreto, de hecho actualmente la mayoría de los programas establecen un HT para cuantificar los mensajes que se emiten en las redes sociales, por ejemplo #Salvados5Nov

Otro ejemplo es el que ocurre en las manifestaciones y las protestas sociales. Aquí hay una recopilación sobre los Tweets emitidos durante las protestas en Gamonal durante los primeros meses del 2014:

 

Obviamente el sistema no es perfecto y cualquier persona que incluya el HT #Gamonal puede incluir aquí sus tweets, por eso sería necesario utilizar un código específico que registrase los tweets, los comentarios públicos en Facebook, las noticias, las intervenciones parlamentarias, las apariciones en la televisión, en las radios, los documentos oficiales, las leyes… Todo lo que tuviese que ver concretamente con este conflicto.

 

Identificadores en vídeos, audios y fotografías

Por ejemplo, en un vídeo de un canal de televisión se pueden incluir estos HT en las secciones concretas donde se trate este tema. Aquí os voy a enseñar un ejemplo en vídeo que he editado añadiendo todas las etiquetas que se podrían incluir en sus metadatos y, por lo tanto, en el Big Data:

Como se puede ver he añadido información de la “polémica”, de la cadena de televisión, del informativo donde se emitió, del programa original, de las personas que hablaban, los temas que trataban, las personas y temas aludidos…

Es un trabajo faraónico, o al menos hasta ahora, porque gracias a los sistema de reconocimientos de voz, faciales y diferentes sistemas de última generación, esto se podría realizar automáticamente en escasos milisegundos sin que ninguna persona tuviese que estar tecleando en un ordenador toda la información manualmente.

 

La privacidad ¿hasta dónde?

Es cierto que un SMS mandado entre 2 personas también forma parte de este Big Data pero ¿podríamos considerarlo a la hora de la clasificación?. Bueno lo ideal sería sí hacerlo porque con un carácter histórico es algo muy importante para medir el estado de la sociedad a nivel más interno y poder sacar patrones de conducta.

Ahora bien, a lo largo de la historia hemos ido aprendiendo que hay cierta información que determinados regímenes totalitarios y antidemocráticos han utilizado para acabar con sus disidentes. Entonces si esta información personal y privada se clasifica con el sistema de HT únicos sería tan fácil como acudir a los registros y ver quiénes son esas personas para poder aplicar sobre ellos medidas poco éticas como torturas o exterminios.

Por eso es muy importante establecer los límites de hasta dónde puede llegar el Big Data desde sus inicios, porque países que ahora son democráticos puede que en unos años ya no lo sean, y es una obligación de las autoridades preservar la privacidad de todos los ciudadanos.