Étant donné le blocage des données – maillage de données dans Starship | par Taavi Pungas | Images des technologies des vaisseaux spatiaux


Taavi Pungas

Gigaoctets de données par sac. C’est ce que vous obtenez lorsque vous publiez de la robotique. C’est beaucoup – surtout si vous répétez plus d’un million de fois comme nous avons.

Mais le terrier du lapin va plus loin. Ce qui est également différent est incroyable : le capteur du robot et les données d’image, l’interaction de l’utilisateur avec nos applications, ce qui s’est passé à partir des commandes, et bien plus encore. Et les méthodes utilisées sont variées, de la formation de réseaux de neurones à la création de visuels pour nos partenaires commerciaux, et tout le reste.

Jusqu’à présent, nous avons été en mesure de résoudre tous ces problèmes avec notre groupe de données central. Entre-temps, la croissance rapide nous a amenés à rechercher de nouvelles façons de travailler vers le succès.

Nous avons découvert que le paradigme du maillage de données est le meilleur moyen d’aller de l’avant. Je vais expliquer comment le vaisseau spatial prend le maillage ci-dessous, mais d’abord, revenons brièvement sur l’itinéraire et pourquoi nous avons décidé de l’utiliser.

Qu’est-ce qu’un maillage de données ?

Le système de maillage de données a été expliqué à l’origine par Zhamak Dehghani. Le paradigme est basé sur ce points principaux: objets de données, domaines de données, plate-forme de données et gestion des données.

L’objectif principal du système de maillage de données a été d’aider les grandes entreprises à résoudre les problèmes de technologie des données et à résoudre les problèmes. Il décrit donc bon nombre des éléments essentiels de l’entreprise, allant du type de données, de la structure et de la sécurité, au leadership et à la structure organisationnelle. En l’état, seulement plusieurs entreprises a annoncé publiquement l’adhésion au paradigme du maillage de données – tous des milliards de grandes entreprises. Malgré cela, nous pensons qu’il peut également être utilisé efficacement dans les petites entreprises.

Maillage de données dans Starship

Faire des choses qui fonctionnent près des personnes qui produisent ou utilisent les informations

Pour stimuler les marchés robotiques hyperlocaux dans le monde, nous devons transformer une variété d’espèces en produits de valeur. Les données proviennent de robots (telles que la télémétrie, les options d’itinéraire, les ETA), les commerçants et les clients (avec leurs programmes, commandes, offres, etc.) et toutes les opérations commerciales (des opérations opérationnelles courtes aux ressources résiduelles globales). ). pièces détachées et robots).

La variabilité en termes d’utilisation est la principale raison pour laquelle nous avons été attirés par l’approche du maillage de données – nous voulons travailler avec des données à proximité des personnes qui créent ou utilisent les informations. En suivant les principes du maillage de données, nous espérons répondre aux divers besoins de nos équipes et faire en sorte que le séchage centralisé soit relativement facile.

Étant donné que Starship n’a pas encore atteint l’entreprise, il ne nous est pas conseillé d’utiliser toutes les parties du maillage de données. Au lieu de cela, nous nous concentrons sur un chemin simple qui a du sens pour nous maintenant et qui nous met sur la bonne voie pour l’avenir.

Données de vente

Expliquez ce que sont vos données d’entreprise – tout a ses propres propriétaires, formulaires et utilisateurs

L’application du raisonnement à nos données est la base de l’ensemble du processus. Nous considérons tout ce qui révèle des informations sur d’autres utilisateurs ou méthodes comme un objet de données. Il peut afficher ses informations de n’importe quelle manière : comme le tableau de bord BI, l’en-tête Kafka, le référentiel, la réponse du microservice prédictif, et bien plus encore.

Un exemple simple de marketing de données dans Starship pourrait être le tableau de bord BI des principaux sites pour suivre la taille de leur entreprise. Un autre exemple serait un moyen créé par les développeurs de logiciels robotiques pour envoyer toutes sortes d’informations des robots à notre centre de données.

Dans tous les cas, nous ne considérons pas notre musée (en fait la maison du lac Databricks) comme une entité unique, mais comme une plate-forme de support pour un certain nombre d’objets connectés. Ces petites entreprises appartiennent souvent à des scientifiques/ingénieurs qui les construisent et les entretiennent, et non à des superviseurs dédiés.

Le propriétaire du produit doit savoir qui l’utilise et ce qu’il veut traiter avec l’article – et sur cette base, décrire et répondre aux attentes de son entreprise. Peut-être en conséquence, nous avons commencé à nous concentrer davantage sur les communications, des composants nécessaires à l’utilisation mais difficiles à modifier.

Plus important encore, comprendre les utilisateurs et le prix que chaque article leur rapporte facilite la hiérarchisation des idées. C’est un must have, pour tout affilié, promouvant n’importe quel programme.

Segments de données

Conservez vos données dans les domaines qui montrent les performances de l’entreprise

Avant de savoir quel type de maillage de données nous étions, nous avions fait bon usage de la forme a data scientists légèrement intégrés pendant un certain temps dans Starship. De même, certains groupes clés avaient un membre du groupe de données qui travaillait à temps partiel – peu importe ce que cela signifiait dans un groupe particulier.

Nous avons continué à interpréter les zones de données conformément à notre plan, cette fois en prenant soin de réaliser tous les aspects de l’entreprise. Après avoir mappé les propriétés du domaine, nous avons affecté un membre du groupe de données pour sélectionner chaque domaine. Cette personne est responsable de la gestion de l’ensemble du groupe de contenu du domaine – certains appartenant à la même personne, certains par d’autres ingénieurs de l’équipe, ou certains par d’autres membres du groupe de données (comme à des fins d’accès).

Il y a un certain nombre de choses que nous aimons dans la configuration de nos domaines. Tout d’abord, chaque domaine de l’entreprise a désormais une personne qui supervise la conception de ses données. Compte tenu de l’intimité de chaque région, cela est possible car nous avons partagé la fonction.

La conception de nos objets de données et de nos connexions nous a également aidés à mieux comprendre le fonctionnement de nos données. Par exemple, lorsqu’il y a plus de domaines que de membres d’un groupe de données (actuellement 19 contre 7), nous faisons maintenant un bon travail pour nous assurer que chacun d’entre nous travaille sur des sujets connexes. Et maintenant, nous comprenons que pour réduire la plus grande douleur, nous devons réduire le nombre de connecteurs utilisés dans le domaine.

Enfin, un bonus très caché pour l’utilisation des centres de données : nous sentons maintenant que nous avons un moyen de faire face à toutes sortes de nouvelles choses. Chaque fois qu’un nouvel itinéraire se présente, tout le monde comprend clairement où il est nécessaire et qui devrait courir.

Il y a aussi des questions ouvertes. Alors que certains domaines penchent naturellement pour refléter davantage l’origine tandis que d’autres utilisent et modifient simplement, il y en a d’autres qui ont une multiplicité des deux. Ces fractions devraient-elles devenir trop grandes ? Ou devrions-nous avoir des sous-domaines chez les adultes ? Nous devons prendre des décisions en cours de route.

Page de données

Encouragez les personnes qui créent vos données en arrêtant les choses sans intervenir

Le but de la plate-forme de données dans Starship est simple : il est possible pour une seule personne responsable des données (généralement un scientifique des données) de gérer les données de fin de vie, par exemple, de maintenir un groupe de données central des opérations quotidiennes. . Cela est nécessaire pour fournir aux experts en conception de domaine et aux scientifiques des données les meilleurs outils et blocs de construction pour leurs produits.

Cela signifie-t-il que vous avez besoin d’un ensemble complet de données sur le chemin du maillage ? Pas vraiment. Notre équipe de plateforme de données compte un ingénieur qui passe la moitié de son temps dans le domaine. La principale raison pour laquelle nous pouvons nous appuyer fortement sur la technologie des plateformes de données est le choix de Spark + Databricks comme base de notre plateforme de données. Notre architecture passée, l’archéologie traditionnelle a placé une ingénierie qui nous tient à cœur en raison de la diversité de nos régions.

Nous avons constaté qu’il est utile de distinguer clairement la pile de données entre les composants qui font partie de la plate-forme par opposition à toute autre chose. Quelques exemples de ce que nous proposons aux groupes de domaines dans le cadre de notre plateforme de données :

  • Databricks + Spark en tant qu’espace de travail et plate-forme intégrée portable ;
  • fonctions d’entrée à une seule ligne, par exemple à partir des collections Mongo ou des thèmes Kafka ;
  • Modèle de flux d’air pour la préparation de pipelines de données ;
  • modèles pour la création et l’envoi de modèles prédictifs tels que les microservices ;
  • suivre le coût des éléments de données ;
  • BI & aides visuelles.

En règle générale, notre objectif est de planifier comment cela peut avoir un sens à notre époque – même les petites choses que nous savons ne resteront pas les mêmes pour toujours. Tant qu’il soutient la récolte actuelle et n’inclut aucune partie du processus, nous sommes heureux. Et bien sûr, certaines choses manquent à la plate-forme en ce moment. Par exemple, les outils qui vérifient le type de données, la disponibilité des données et la ligne de données sont des choses qu’il nous reste pour l’avenir.

Contrôle des données

Votre puissant propriétaire est soutenu par les réponses

Avoir moins de personnes et de groupes est très important dans la gouvernance, par exemple, il est plus facile de prendre des décisions. D’autre part, notre question clé de gouvernance est directement liée à notre taille. S’il y a une personne pour les données sur un ennemi, elle ne peut pas s’attendre à être un expert dans tout ce qui est possible. Cependant, seules les personnes qui ont suffisamment d’informations sur leur emplacement. Comment maximiser l’opportunité pour eux de prendre de bonnes décisions dans leur communauté ?

Notre réponse : à travers la culture personnelle, les discussions et les commentaires au sein du groupe. Nous avons généreusement emprunté à la philosophie de gestion sur Netflix et développé ce qui suit :

  • responsabilité personnelle des résultats (matériels et régionaux);
  • rechercher diverses idées avant de prendre des décisions, en particulier celles qui touchent d’autres domaines ;
  • demander des réponses et répéter le code comme un bon moyen et une opportunité pour votre croissance.

Nous avons également pris un certain nombre d’engagements concernant notre morale, notant nos points forts (y compris le nom), etc.

Ces principes s’appliquent également en dehors de la fonction de « construction » de notre groupe de données – ce qui a été l’objet de cet article. De toute évidence, il y a beaucoup de que de fournir des objets de données de la même manière que nos scientifiques tirent profit d’une entreprise.

Une dernière réflexion sur le leadership – nous continuerons à revoir nos stratégies de travail. Il n’y aura pas de « meilleure » façon de faire les choses et nous savons que nous devons changer avec le temps.

Remarques finales

Ça y est …! Il s’agissait de 4 idées de maillage de départ utilisées dans Starship. Comme vous pouvez le voir, nous avons trouvé un moyen d’accéder au maillage de données qui nous convient en tant qu’entreprise en croissance à long terme. Si cela semble intéressant dans votre article, j’espère que la lecture de notre expérience vous a aidé.

Si vous souhaitez vous joindre à notre travail, consultez notre page emploi sur la liste des postes ouverts. Ou vérifier notre chaîne Youtube pour en savoir plus sur notre projet de robots de classe mondiale.

Contactez-moi si vous avez des questions ou des suggestions et nous apprendrons les uns des autres !



Source link

Leave a Reply

Your email address will not be published.