Iceberg + Spark + Trino: una moderna pila de datos de código abierto para blockchain - TodoCryptos
Conecta con nosotras

DeFi

Iceberg + Spark + Trino: una moderna pila de datos de código abierto para blockchain

Publicado

sobre

1. El desafío para la pila de datos moderna de blockchain

Hay varios desafíos a los que se puede enfrentar una empresa moderna de indexación de blockchain, que incluyen:

  • Grandes cantidades de datos. A medida que aumenta la cantidad de datos en la cadena de bloques, el índice de datos deberá ampliarse para manejar el aumento de la carga y proporcionar un acceso eficiente a los datos. En consecuencia, conduce a mayores costos de almacenamiento, cálculo lento de métricas y mayor carga en el servidor de la base de datos.
  • Tubería de procesamiento de datos compleja. La tecnología Blockchain es compleja, y la creación de un índice de datos integral y confiable requiere una comprensión profunda de las estructuras de datos y los algoritmos subyacentes. La diversidad de implementaciones de blockchain lo hereda. Dados ejemplos específicos, los NFT en Ethereum generalmente se crean dentro de contratos inteligentes siguiendo los formatos ERC721 y ERC1155. Por el contrario, la implementación de Polkadot, por ejemplo, generalmente se construye directamente dentro del tiempo de ejecución de blockchain. Esos deben considerarse NFT y deben guardarse como tales.
  • Capacidades de integración. Para brindar el máximo valor a los usuarios, es posible que una solución de indexación de blockchain deba integrar su índice de datos con otros sistemas, como plataformas de análisis o API. Esto es un desafío y requiere un esfuerzo significativo puesto en el diseño de la arquitectura.

A medida que la tecnología de cadena de bloques se ha generalizado, la cantidad de datos almacenados en la cadena de bloques ha aumentado. Esto se debe a que más personas usan la tecnología y cada transacción agrega nuevos datos a la cadena de bloques. Además, la tecnología blockchain ha evolucionado desde aplicaciones simples de transferencia de dinero, como las que involucran el uso de Bitcoin, hasta aplicaciones más complejas que involucran la implementación de la lógica comercial dentro de los contratos inteligentes. Estos contratos inteligentes pueden generar grandes cantidades de datos, lo que contribuye a aumentar la complejidad y el tamaño de la cadena de bloques. Con el tiempo, esto ha llevado a una cadena de bloques más grande y compleja.

En este artículo, revisamos la evolución de la arquitectura tecnológica de Footprint Analytics en etapas como un caso de estudio para explorar cómo la pila de tecnología Iceberg-Trino aborda los desafíos de los datos en cadena.

Footprint Analytics ha indexado alrededor de 22 datos públicos de blockchain, 17 mercados de NFT, 1900 proyectos de GameFi y más de 100 000 colecciones de NFT en una capa de datos de abstracción semántica. Es la solución de almacén de datos de cadena de bloques más completa del mundo.

Independientemente de los datos de blockchain, que incluyen más de 20 mil millones de filas de registros de transacciones financieras, que los analistas de datos consultan con frecuencia. es diferente de los registros de ingreso en los almacenes de datos tradicionales.

Hemos experimentado 3 actualizaciones importantes en los últimos meses para cumplir con los crecientes requisitos comerciales:

2. Arquitectura 1.0 Bigquery

Al comienzo de Footprint Analytics, usamos Google Bigquery como nuestro motor de consulta y almacenamiento; Bigquery es un gran producto. Es increíblemente rápido, fácil de usar y proporciona poder aritmético dinámico y una sintaxis UDF flexible que nos ayuda a hacer el trabajo rápidamente.

Sin embargo, Bigquery también tiene varios problemas.

  • Los datos no se comprimen, lo que genera altos costos, especialmente cuando se almacenan datos sin procesar de más de 22 cadenas de bloques de Footprint Analytics.
  • Simultaneidad insuficiente: Bigquery solo admite 100 consultas simultáneas, lo que no es adecuado para escenarios de alta simultaneidad para Footprint Analytics cuando atiende a muchos analistas y usuarios.
  • Conéctese con Google Bigquery, que es un producto de código cerrado。

Así que decidimos explorar otras arquitecturas alternativas.

3. Arquitectura 2.0 OLAP

Estábamos muy interesados ​​en algunos de los productos OLAP que se habían vuelto muy populares. La ventaja más atractiva de OLAP es su tiempo de respuesta a las consultas, que normalmente tarda unos segundos en devolver los resultados de la consulta para cantidades masivas de datos, y también puede admitir miles de consultas simultáneas.

Elegimos una de las mejores bases de datos OLAP, Doris, para probarla. Este motor funciona bien. Sin embargo, en algún momento nos encontramos con otros problemas:

  • Los tipos de datos como Array o JSON aún no son compatibles (noviembre de 2022). Las matrices son un tipo común de datos en algunas cadenas de bloques. Por ejemplo, el campo de tema en los registros de evm. No poder calcular en Array afecta directamente nuestra capacidad de calcular muchas métricas comerciales.
  • Soporte limitado para DBT y para declaraciones de combinación. Estos son requisitos comunes para los ingenieros de datos para escenarios ETL/ELT en los que necesitamos actualizar algunos datos indexados recientemente.

Dicho esto, no podíamos usar Doris para toda nuestra canalización de datos en producción, así que intentamos usar Doris como una base de datos OLAP para resolver parte de nuestro problema en la canalización de producción de datos, actuando como un motor de consulta y brindando información rápida y altamente Capacidades de consultas simultáneas.

Desafortunadamente, no pudimos reemplazar Bigquery con Doris, por lo que tuvimos que sincronizar periódicamente los datos de Bigquery con Doris usándolo como un motor de consulta. Este proceso de sincronización tenía varios problemas, uno de los cuales era que las escrituras de actualización se acumulaban rápidamente cuando el motor OLAP estaba ocupado atendiendo consultas a los clientes front-end. Posteriormente, la velocidad del proceso de escritura se vio afectada y la sincronización tomó mucho más tiempo y, a veces, incluso se volvió imposible de terminar.

Nos dimos cuenta de que OLAP podría resolver varios problemas a los que nos enfrentamos y no podía convertirse en la solución llave en mano de Footprint Analytics, especialmente para la canalización de procesamiento de datos. Nuestro problema es más grande y más complejo, y podríamos decir que OLAP como motor de consulta por sí solo no era suficiente para nosotros.

4. Arquitectura 3.0 Iceberg + Trino

Bienvenido a la arquitectura Footprint Analytics 3.0, una revisión completa de la arquitectura subyacente. Hemos rediseñado toda la arquitectura desde cero para separar el almacenamiento, el cálculo y la consulta de datos en tres partes diferentes. Tomando lecciones de las dos arquitecturas anteriores de Footprint Analytics y aprendiendo de la experiencia de otros proyectos exitosos de big data como Uber, Netflix y Databricks.

4.1. Introducción del lago de datos

Primero dirigimos nuestra atención al lago de datos, un nuevo tipo de almacenamiento de datos para datos estructurados y no estructurados. El lago de datos es perfecto para el almacenamiento de datos en cadena, ya que los formatos de los datos en cadena varían ampliamente, desde datos en bruto no estructurados hasta datos de abstracción estructurados, por los que Footprint Analytics es bien conocido. Esperábamos utilizar el lago de datos para resolver el problema del almacenamiento de datos e, idealmente, también sería compatible con los principales motores de cómputo, como Spark y Flink, de modo que no sería una molestia integrarse con diferentes tipos de motores de procesamiento a medida que evoluciona Footprint Analytics. .

Iceberg se integra muy bien con Spark, Flink, Trino y otros motores computacionales, pudiendo elegir el cómputo más adecuado para cada una de nuestras métricas. Por ejemplo:

  • Para aquellos que requieren una lógica computacional compleja, Spark será la elección.
  • Flink para computación en tiempo real.
  • Para tareas ETL simples que se pueden realizar con SQL, usamos Trino.

4.2. motor de consultas

Con Iceberg resolviendo los problemas de almacenamiento y computación, tuvimos que pensar en elegir un motor de consulta. No hay muchas opciones disponibles. Las alternativas que consideramos fueron

Lo más importante que consideramos antes de profundizar fue que el futuro motor de consultas tenía que ser compatible con nuestra arquitectura actual.

  • Para admitir Bigquery como fuente de datos
  • Para admitir DBT, en el que confiamos para producir muchas métricas
  • Para admitir la metabase de herramientas de BI

Basándonos en lo anterior, elegimos Trino, que tiene muy buen soporte para Iceberg y el equipo fue tan receptivo que planteamos un error, que se solucionó al día siguiente y se lanzó a la última versión la semana siguiente. Esta fue la mejor opción para el equipo de Footprint, que también requiere una alta capacidad de respuesta de implementación.

4.3. Pruebas de rendimiento

Una vez que decidimos nuestra dirección, hicimos una prueba de rendimiento en la combinación Trino + Iceberg para ver si podía satisfacer nuestras necesidades y, para nuestra sorpresa, las consultas fueron increíblemente rápidas.

Sabiendo que Presto + Hive ha sido el peor comparador durante años en todo el bombo de OLAP, la combinación de Trino + Iceberg nos dejó completamente boquiabiertos.

Aquí están los resultados de nuestras pruebas.

caso 1: unirse a un gran conjunto de datos

Una tabla1 de 800 GB se une a otra tabla2 de 50 GB y realiza cálculos comerciales complejos

case2: use una sola tabla grande para hacer una consulta distinta

Prueba sql: seleccione distinto (dirección) del grupo de tablas por día

La combinación Trino+Iceberg es aproximadamente 3 veces más rápida que Doris en la misma configuración.

Además, hay otra sorpresa porque Iceberg puede usar formatos de datos como Parquet, ORC, etc., que comprimirán y almacenarán los datos. El almacenamiento de tablas de Iceberg ocupa solo alrededor de 1/5 del espacio de otros almacenes de datos. El tamaño de almacenamiento de la misma tabla en las tres bases de datos es el siguiente:

Nota: Las pruebas anteriores son ejemplos que hemos encontrado en la producción real y son solo para referencia.

4.4. Efecto de actualización

Los informes de las pruebas de rendimiento nos dieron suficiente rendimiento, por lo que nuestro equipo tardó aproximadamente 2 meses en completar la migración, y este es un diagrama de nuestra arquitectura después de la actualización.

  • Múltiples motores informáticos se adaptan a nuestras diversas necesidades.
  • Trino admite DBT y puede consultar Iceberg directamente, por lo que ya no tenemos que lidiar con la sincronización de datos.
  • El asombroso rendimiento de Trino + Iceberg nos permite abrir todos los datos de bronce (datos sin procesar) a nuestros usuarios.

5. Resumen

Desde su lanzamiento en agosto de 2021, el equipo de Footprint Analytics completó tres actualizaciones arquitectónicas en menos de un año y medio, gracias a su fuerte deseo y determinación de brindar los beneficios de la mejor tecnología de base de datos a sus criptousuarios y su sólida ejecución en la implementación y actualizar su infraestructura y arquitectura subyacentes.

La actualización 3.0 de la arquitectura de Footprint Analytics ha comprado una nueva experiencia para sus usuarios, lo que les permite a los usuarios de diferentes orígenes obtener información sobre usos y aplicaciones más diversos:

  • Creado con la herramienta Metabase BI, Footprint facilita a los analistas obtener acceso a datos decodificados en cadena, explorar con total libertad de elección de herramientas (sin código o hardcord), consultar el historial completo y examinar conjuntos de datos para obtener información en no hay tiempo.
  • Integre datos dentro y fuera de la cadena para el análisis en web2 + web3;
  • Al construir / consultar métricas sobre la abstracción comercial de Footprint, los analistas o desarrolladores ahorran tiempo en el 80 % del trabajo de procesamiento de datos repetitivo y se enfocan en métricas significativas, investigación y soluciones de productos basadas en su negocio.
  • Experiencia perfecta desde Footprint Web hasta llamadas REST API, todo basado en SQL
  • Alertas en tiempo real y notificaciones procesables sobre señales clave para respaldar las decisiones de inversión

Lea el artículo completo aquí.

DeFi

Nasdaq lanzará criptocustodia para el segundo trimestre de 2023

Publicado

sobre

Nasdaq planea capitalizar la demanda de proveedores de servicios institucionales en el criptomercado lanzando su servicio de criptocustodia a finales del segundo trimestre de 2023.

Según Ira Auerbach, vicepresidente sénior y director de Nasdaq Digital Assets, la bolsa de valores estadounidense Nasdaq, comenzará a ofrecer sus servicios de criptocustodia a los clientes a fines del segundo trimestre de 2023.

Agregó que el intercambio está trabajando las 24 horas para obtener las aprobaciones regulatorias necesarias para cumplir con su objetivo de debutar en el segundo trimestre de este año.

Auerbach afirmó además que Nasdaq también solicitó al Departamento de Servicios Financieros de Nueva York un estatuto de empresa fiduciaria de propósito limitado.

Nasdaq comenzará su plataforma ofreciendo servicios de custodia de bitcoin (BTC) y ethereum (ETH) antes de expandirse a un amplio conjunto de servicios para su división de activos digitales en un futuro próximo.

El lanzamiento de sus soluciones de criptocustodia no es la primera incursión de Nasdaq en criptografía. El intercambio ha ofrecido tecnologías de vigilancia del mercado a varios intercambios de cifrado en el pasado y ha seguido realizando inversiones relacionadas con el cifrado.



Lea el artículo completo aquí.

Sigue leyendo

DeFi

Alpha mainnet de la solución de escalado Ethereum ZKSync se pone en marcha

Publicado

sobre

ZKSync, una solución de escalado de capa 2 de Ethereum, presenta su red principal alfa para reducir la congestión y mejorar el rendimiento de las transacciones.

El ecosistema ethereum (ETH) es testigo de un desarrollo significativo a medida que se lanza oficialmente la red principal alfa de ZKSync, una solución de escalado de capa 2. ZKSync tiene como objetivo aliviar la congestión de la red y reforzar el rendimiento de las transacciones en ethereum mediante el empleo de pruebas de conocimiento cero, una técnica criptográfica que garantiza la privacidad de las transacciones.

La cadena de bloques de Ethereum ha encontrado varios obstáculos relacionados con su capacidad de escalar y costos de transacción elevados, que se han vuelto más pronunciados debido a la creciente adopción de DeFi y NFT. En respuesta a estos desafíos, han surgido soluciones de capa 2 como ZKSync para mejorar el rendimiento y la eficiencia general de la red.

El lanzamiento de la red principal alfa de ZKSync marca un hito importante en la hoja de ruta. El lanzamiento muestra la integración exitosa de la primera versión de zkEVM, un motor compatible con EVM (Ethereum Virtual Machine) de conocimiento cero. Esta compatibilidad permite a los desarrolladores implementar sus contratos inteligentes de ethereum en ZKSync sin realizar cambios significativos en el código. Como resultado, ZKSync tiene como objetivo ofrecer una adopción perfecta para proyectos existentes dentro del ecosistema ethereum.

El equipo del proyecto detrás de ZKSync ha expresado su confianza en el potencial de la tecnología para escalar las transacciones de ethereum, enfatizando que el lanzamiento de la red principal alfa es solo el comienzo. Los planes de desarrollo futuros incluyen la introducción de más funciones, herramientas y servicios para ayudar a los desarrolladores y usuarios, mientras se mejora aún más la escalabilidad y la seguridad de la red.

Varios jugadores destacados en la comunidad ethereum, como Aave y Curve, ya han mostrado interés en adoptar ZKSync para mejorar el rendimiento de sus plataformas. Esta integración promete un entorno más eficiente, seguro y rentable para proyectos basados ​​en Ethereum, lo que reduce las barreras de entrada para desarrolladores y usuarios por igual.

El lanzamiento de la red principal alfa de ZKSync es un paso importante para resolver los problemas de escalabilidad de ethereum. A medida que la tecnología continúa evolucionando y ganando adopción, se espera que la capacidad y la eficiencia de la red de ethereum mejoren, convirtiéndola en una opción más atractiva para varias aplicaciones y casos de uso descentralizados.

Lea el artículo completo aquí.

Sigue leyendo

DeFi

Las direcciones de vanidad pirateadas saquean $ 500k mientras las controversias rodean el lanzamiento aéreo de Arbitrum

Publicado

sobre

Según datos recientes en la cadena, se usaron direcciones de vanidad pirateadas para saquear tokens por valor de $ 500K. El saqueo ocurrió durante el lanzamiento aéreo de la solución de escalado de capa 2 Arbitrum programado para el 23 de marzo.

Alguien que generó una lista de direcciones de vanidad que eran elegibles para lanzamientos aéreos de ARB fue quien robó los tokens.

El tweet explicaba que los tokens habían sido robados por una persona que primero había compilado una lista de direcciones de vanidad calificadas para recibir tokens ARB. Luego logró generar direcciones similares utilizando generadores de direcciones de vanidad. Finalmente, dirigió los tokens lanzados desde el aire a las direcciones recién desarrolladas. Dado que estas direcciones personalizadas fueron pirateadas, los propietarios originales de los tokens ARB ya no podrán reclamarlos.

Varios usuarios de criptomonedas han recurrido a Twitter para expresar su consternación tras el robo de sus tokens ARB. La mayoría de los afectados necesitan estar más informados sobre la causa de la pérdida y no tienen idea de cómo responder adecuadamente.

Lanzamiento aéreo de arbitraje

El sorteo de fichas organizado por Arbitrum generó muchos rumores e inundó varios otros sitios web. Incluso con esto, la herramienta de análisis de blockchain Nansen informa que hay un total de 428 millones de tokens ARB que aún deben reclamarse.

Aunque el 61% de las billeteras criptográficas elegibles ya habían reclamado tokens de gobierno a fines del 22 de marzo, aún necesitaban alrededor de 240,000 direcciones para hacerlo.

Los 428 millones de tokens no reclamados representan el 37 % de los 1100 millones de ARB asignados para el airdrop de Arbitrum. En el momento de escribir este artículo, el valor de estos tokens se acercaba a los 596 millones de dólares. Algunas direcciones elegibles sin reclamar sus tokens son parte de la categoría de direcciones pirateadas.

¿Qué son las direcciones personalizadas?

Esta no es la primera vez que los estafadores utilizan direcciones personalizadas pirateadas en criptomonedas. A los usuarios de MetaMask se les envió una advertencia sobre el envenenamiento de direcciones en enero.

Una dirección personalizada es una dirección criptográfica única que incorpora la frase o palabra elegida por el usuario. Las direcciones de criptomonedas con un prefijo de vanidad son más memorables y fáciles de recordar. Por otro lado, la seguridad de las direcciones personalizadas es un tema de debate.

Para generar una dirección de vanidad, los usuarios deben utilizar software o servicios especializados, lo que introduce una posible vulnerabilidad en la seguridad crítica privada de los usuarios. Los ciberdelincuentes que adquieren acceso a la clave privada pueden robar cualquier activo criptográfico vinculado a esa dirección.



Lea el artículo completo aquí.

Sigue leyendo
Advertisement

Boletin Informativo

Suscríbase a nuestro boletín para recibir las últimas noticias directamente en su bandeja de entrada.


Tendencias