En los últimos años, ha habido una explosión en el uso de fuentes de datos alternativas en la toma de decisiones de inversión en hedge funds (fondos de cobertura), bancos de inversión y empresas de capital privado.
Estas nuevas fuentes de datos, conocidas colectivamente como «datos alternativos«, tienen el potencial de dar a las empresas una ventaja informativa crucial en el mercado, permitiéndoles generar alfa.
Aunque los inversores ahora están utilizando innumerables fuentes de datos alternativas, como datos de satélites, clima, empleo, datos comerciales…, la principal fuente de datos alternativos son las diversas formas de datos web: datos rastreados, tendencias de búsqueda y tráfico de sitios web.
Los datos recogidos de webs son únicos, en el sentido que hay un enorme océano de datos de señalización, valiosos y actualizados, que se encuentran al alcance de todos en la red. Sin embargo, están bloqueado en formatos de datos no estructurados o son de difícil acceso.
En este artículo analizaremos la forma más popular de datos alternativos, los datos obtenidos de sitios web. Además compartiremos cuál es el factor más importante que las empresas deben tener en cuenta al crear una fuente de datos financieros alternativa sólida para los procesos de toma de decisiones de su inversión.
Requisitos de los datos para decisiones de inversión
Cuando se trata de usar datos en decisiones de inversión multimillonarias, la capacidad de validar la hipótesis de inversión a través de la evaluación comparativa y el backtesting son cruciales. Lo que significa es que los datos extraídos de la web no comienzan a ser realmente valiosos hasta que tengamos un conjunto de datos histórico completo. La clave aquí es la palabra «completa».
Como veremos en más detalle a continuación, la integridad y la calidad de los datos juegan un rol enorme en el valor y la utilidad de cualquier fuente de datos. Sin un conjunto completo de datos históricos, es casi imposible para las empresas validar su tesis de inversión antes de comprometerse con una decisión de inversión.
Cada tesis de inversión debe someterse a rigurosas pruebas de estrés para evaluar la solidez de los supuestos subyacentes, el riesgo previsto y el rendimiento de la inversión, y luego compararse con otras tesis de inversión competidoras que compiten por el mismo conjunto de presupuesto de inversión.
La forma más efectiva de evaluar cómo una tesis de inversión se habría enfrentado en situaciones pasadas es mediante pruebas de estrés con datos históricos. Por tanto, la necesidad de datos históricos completos es extremadamente importante.
Hay dos enfoques adoptados para obtener los datos históricos que necesitan las empresas:
1. Compra de conjuntos de datos históricos
Una opción es la compra de conjuntos de datos estándar de proveedores de datos alternativos. La integridad y el valor de estos conjuntos de datos se pueden validar fácilmente con algunos análisis internos, sin embargo, sufren mucho de la mercantilización, reutilización y pérdida de valor.
Como estos conjuntos de datos están a la venta, todos pueden tener acceso a las mismas fuentes de datos, reduciendo significativamente la ventaja informativa que una empresa puede obtener sobre otra a partir de los datos resultantes. La capacidad de generar alfa con los datos dependerá en gran medida de las competencias de los equipos internos de análisis e inversión de datos, y de los demás datos de propiedad con los que puedan combinar estos conjuntos de datos estándar.
2. Crear uno propio
La otra opción, cada vez más popular, es que las empresas creen sus propias fuentes de datos web para tratamiento en sus modelos de inversión, y creen sus propios conjuntos de datos históricos. Este enfoque también tiene ventajas y desventajas.
La gran ventaja para las empresas que crean sus propios feeds de datos web es que les da acceso a datos únicos que sus competidores no tendrán. Tener sus propias capacidades internas de extracción de datos mejora exponencialmente la cantidad y la integridad de las tesis de inversión que su equipo puede desarrollar permitiéndoles desarrollar tesis de inversión que les otorguen una ventaja única sobre el mercado. Sin embargo, el principal inconveniente de la creación de feeds de datos internos es el hecho de que normalmente son una inversión para el futuro. Es probable que las empresas no utilicen los datos extraídos de inmediato (dependiendo del tipo de datos que puedan usar) ya que necesitan crear una acumulación de datos históricos.
Como hemos visto, hay una gran necesidad de datos web en la toma de decisiones de inversión, sin embargo, como hemos señalado, todo depende en gran medida de la calidad de los datos subyacentes.
Calidad de datos
Con mucho, el elemento más importante para el éxito de un proyecto de extracción de datos web alternativos para finanzas es la calidad de los datos.
Sin datos completos y de alta calidad, los datos web a menudo son inútiles para la toma de decisiones de inversión. Simplemente es muy poco fiable y arriesgado basar las decisiones de inversión en datos incompletos o de baja calidad.
Esto plantea un gran desafío para cualquier equipo de adquisición de datos de hedge funds, ya que los requisitos de precisión y cobertura a los que se enfrentan a menudo superan con creces los requisitos de un proyecto típico de scraping de datos de webs.
La razón de esta mayor necesidad de calidad de datos es el hecho de que cualquier ruptura o corrupción en los datos a menudo corrompe todo el conjunto de datos, haciéndolo inutilizable para la toma de decisiones de inversión.
Si hay una interrupción en la alimentación de datos, la interpolación entre los puntos de datos disponibles podría provocar errores que podrían dañar la salida de cualquier análisis de los datos. Potencialmente conduciendo a una decisión de inversión equivocada. A menos que pueda confiar en la precisión de la interpolación, cualquier interrupción en la fuente de datos puede interrumpir gravemente la facilidad de uso de los datos.
Debido a esta necesidad de datos fiables y de alta calidad, los equipos de búsqueda de fondos de financiación alternativa deben duplicar los fundamentos básicos de la construcción de una infraestructura de búsqueda de datos robusta: diseño de rastreador / extractor, gestión de proxy y control de calidad de datos.
El diseño de rastreador y extractor desempeña un papel crucial en la calidad y fiabilidad de una fuente de datos alternativa para las finanzas. Como su nombre indica, el rastreador (crawler) y el extractor son parte del sistema de raspado web que localiza y extrae los datos de destino del sitio web.
Como resultado, cualquier inexactitud aquí es extremadamente difícil (a veces imposible) de corregir en el post-procesamiento. Si los datos sin procesar extraídos están incompletos, son incorrectos o están dañados, sin otras fuentes de datos independientes para complementar, interpolar y validar los datos, los datos sin procesar subyacentes pueden quedar inutilizables. Priorizar el diseño del rastreador y el extractor debe ser el foco principal al crear una infraestructura de extracción de datos web para datos financieros alternativos.
Queda fuera del alcance de este artículo detallar cómo desarrollar crawlers y extractores potentes, sin embargo, analizaremos algunos puntos de alto nivel a tener en cuenta al diseñar sus rastreadores y rastreadores.
Con la importancia de los datos de valor para la toma de decisiones de inversión, no hay nada mejor que contar con la ayuda de ingenieros de software con experiencia en rastreo al diseñar y construir rastreadores y extractores.
Cada sitio web tiene sus propias peculiaridades y desafíos, desde estructuras descuidadas pasando por javascript que no permite leer el contenido, hasta contramedidas anti-bots y dificultades para navegar a los datos de destino. Tener ingenieros con experiencia le permite a su equipo predecir los desafíos a los que enfrentarán sus rastreadores y extractores mucho antes de que se manifiesten los problemas. Permitiéndole desarrollar una fuente de datos sólida desde el primer día y crear conjuntos de datos históricos, en lugar de pasar semanas resolviendo problemas y refinando una fuente de datos que produce datos no confiables.
La forma en que se configuran los rastreadores y los extractores web también es muy importante. Al crear su infraestructura de scraping web, necesita separar los programas que como arañas tejen redes de webs para la extracción de datos. Los rastreadores deben ser altamente configurables y estar diseñados para permitir que los rastreos se detengan y reanuden fácilmente sin pérdida de datos. Es inevitable con los cambios en el sitio web y los desafíos anti-bot que los rastreadores en algún momento dejarán de proporcionar una calidad de datos perfecta. Como resultado, sus rastreadores deben ser configurables, ser capaces de detectar y afrontar los casos de inaccesibilidad previstos y estar estructurados de manera que puedan detenerse y reanudar donde se pararon.
El factor más importante para garantizar la fiabilidad de su fuente de datos es asegurarse de que pueda acceder de manera confiable a los datos que necesita, sin importar la escala. Como resultado, una solución de administración de proxy robusta es una necesidad absoluta.
Para solicitar páginas web de forma persistente lo más importante es un buen sistema de administración de proxy. Si sus solicitudes se bloquean constantemente, esto implica un riesgo muy alto de que haya vacíos en su fuente de datos.
Es muy común que los equipos de scraping web se encuentren con graves problemas de prohibición a medida que mueven las arañas de software a la extracción real. Las solicitudes bloqueadas a escala pueden convertirse en una pesadilla y en una gran carga para el equipo de resolución de problemas.
Una capa de administración de proxy robusta e inteligente permite rotar las IP, seleccionar IPs geográficas específicas, acelerar las solicitudes, identificar las prohibiciones y los captchas, automatizar los reintentos, administrar sesiones, editar agentes de usuarios y la lógica de la listas negras para evitar que sus proxies sean bloqueados y así evitar interrumpir la alimentación de datos.
Tiene dos opciones aquí, puede usar proxies de alta calidad y desarrollar a medida esta infraestructura de administración de proxy de manera interna o usar una solución de administración de proxy estandar. La administración de proxies no es una competencia central o una tarea de alto ROI para los negocios de inversión por lo que nuestra recomendación es utilizar soluciones de administración de proxy sólidas y bien mantenidas, que permitan concentrarse en el uso de los datos en sus procesos de toma de decisiones de inversión.
Por último, la infraestructura de extracción web de su empresa debe incluir una capa de garantía de calidad de datos altamente capaz y robusta que pueda detectar problemas de calidad de los datos en tiempo real para que puedan solucionarse de inmediato para minimizar la posibilidad de que haya interrupciones en la fuente de datos.
Obviamente, un proceso de control de calidad completamente manual simplemente nunca podría garantizar los niveles de calidad requeridos a escala. Debe implementar un proceso híbrido de control de calidad automatizado y manual que sea capaz de monitorizar sus rastreadores en tiempo real, detectar problemas de precisión y cobertura de datos, corregir problemas menores e identificar problemas importantes para la inspección manual por parte de su equipo de control de calidad.
Como hemos visto, hay muchos desafíos asociados con la extracción de datos financieros alternativos de la web. Sin embargo, con la experiencia, las herramientas y los recursos adecuados, puede crear una infraestructura de raspado web altamente robusta para impulsar su proceso de toma de decisiones de inversión con datos web de alta calidad y obtener una ventaja informativa sobre el mercado.
Si está interesado en extraer datos web para sus procesos de toma de decisiones, pero no dispone de un equipo dedicado de scraping web en la empresa puede subcontratar a una empresa dedicada a estas tareas o incorporar a algún perfil que ayude a su equipo. Desde Baoss estaremos encantados de ayudarle en cualquiera de las opciones que mejor se adapten a sus necesidades.