Inteligência Artificial Aplicada em Redes de Comunicação
A linha temática Inteligência Artificial Aplicada em Redes de Comunicação engloba tarefas para uso de IA no gerenciamento da infraestrutura de comunicação, bem como tornar mais eficiente e automatizado o uso desses recursos. Abaixo são descritas as tarefas envolvidas nessa linha temática.
Tarefa 18: Fatiamento Dinâmico de Redes
A partir da virtualização dos recursos fı́sicos da rede, diversas fatias de rede podem ser criadas sobre uma mesma infraestrutura a fim de servir, sob medida, grupos distintos de usuários. Cada fatia de rede pode ser construı́da com uma fração dos recursos fı́sicos disponı́veis a fim de atender a demanda de um grupo de usuários em especı́fico. As aplicações acessadas pelos usuários devem ser alocadas em locais estratégicos, assim como as fatias de rede devem ser construı́das para prover a conexão necessária entre esses agentes. Dada a dinamicidade desse cenário, a infraestrutura de rede deve ser capaz de se reconfigurar de forma eficiente à medida em que a demanda por recursos se modifica ao longo do tempo.
Aprendizado de máquina e, em especial Deep Reinforcement learning tem sido empregado para soluções de alocação de recursos, controle de admissão, reconfiguração e orquestração no núcleo, na rede de transporte e na Rede de Acesso Rádio (RAN). Apesar de intensamente estudada, existem uma série de questões que necessitam de maior aprofundamento, em especial escalabilidade, reconfiguração dinâmica de recursos, coleta de dados para tomada de decisão.
Esta tarefa pretende desenvolver uma solução para o problema do alocação dinâmica de fatias de redes com o objetivo de atender usuários móveis em uma infraestrutura de Névoa/5G-6G. Em especial, este trabalho desenvolverá soluções para dois problemas relacionados à alocação dinâmica de recursos presentes nessa arquitetura: a reconfiguração de fatias de redes e a migração de serviços. Os mecanismos desenvolvidos para resolver cada um desses problemas serão baseados em duas abordagens: (1) uma solução ótima/modelo matemático baseado em programação linear inteira mista e (2) aplicação de técnicas de aprendizado de máquina distribuı́da, como por exemplo aprendizado por reforço e aprendizado federado. Pretende-se que estes mecanismos considerem o tempo de reconfiguração das fatias, o que outras soluções não endereçam. A comparação dessas duas soluções servirá para melhor entendimento das vantagens e limitações do uso de aprendizado de máquina distribuı́da para reconfiguração dinâmica de recursos frente a demandas dinâmicas.
Soluções para fatiamento de redes fim-a-fim multidomı́nio ainda estão em estágio inicial de investigação. A generalização da tarefa proposta para contexto multidomı́nio e sua automação via IA distribuı́da será um importante passo para o entendimento dos benefı́cios de soluções inteligentes e em tempo real frente a complexidade de modelagem de tais cenários.
Tarefa 19: Aprendizado Federado sobre Redes Ópticas Passivas Ethernet de Redes Mobile Fronthaling 5G/6G
O aprendizado federado tem requisitos de atrasos de comunicação estritos para o envio dos parâmetros locais dos clientes para o servidor central. Um baixo atraso na rede de comunicação implica em acelerar a convergência do modelo global, especialmente quando a federação envolve muitos clientes. Além disso, o aprendizado federado também pode exigir um grande número de rodadas de treinamento para produzir modelos globais precisos.
O processamento de aprendizado federado com servidor central têm uma estrutura de árvore de um nı́vel semelhante estrutura fı́sica de uma rede Passive Optical Networks (PON). Algumas abordagens foram propostas para suportar aplicações FL sobre as redes PON. Em [83], foi proposta uma arquitetura na qual o processo de agregação é feito em duas etapas, porem não foi definido um algoritmo para a distribuição dos recursos da PON entre os clientes FL. Em [84], foi proposto um algoritmo de DBA o qual reserva parte da largura de banda da PON (slide) para os clientes FL, porém, a concorrência pelos recursos do slide entre clientes FL pode causar atrasos e aumento no tempo de processamento. Além de isso, o algoritmo BS não se alinha com modelos de negócios convencionais, onde um Acordo de Nı́vel de Serviço (SLA) define a largura de banda garantida por ONU. Em [27], foi proposto um algoritmo de alocação dinâmica de largura de banda e comprimento de onda (DWBA) para redes 50G-EPONs baseado em priorização de tráfego do tipo DiffServ. O tráfego FL é priorizado para atender às demandas de processamento e comunicações FL, mantendo o esquema tradicional de largura de banda garantida para todos os clientes PON.
No entanto, nenhum dos algoritmos mencionados considera os requisitos de Qualidade de Serviço (QoS) de múltiplas aplicações FL simultâneas. Quando duas ou mais aplicações FL competem pelos recursos de rede na ONU, a polı́tica First-Come-First-Served (FCFS) é geralmente empregada. Essa abordagem pode levar a uma monopolização dos recursos por parte das aplicações FL com alta demanda de largura de banda, aumentando o atraso nas outras aplicações FL e, consequentemente, potencialmente reduzindo a precisão do modelo. Além de isso, as caracterı́sticas únicas do tráfego do aprendizado federado, como rajadas de pacotes devido a sincronização, introduzem desafios para o gerenciamento da largura de banda da rede em cenários com largura de banda limitada.
Pretende-se, nessa tarefa, propor uma solução de escalonamento de pacotes e alocação de recursos para prover qualidade de serviço em cenários PON com múltiplas aplicações de aprendizado federado. Essa solução considerará as exigências de largura de banda e as particularidades do tráfego das aplicações de FL ao distribuir os recursos. Além disso, Pretende-se desenvolver um algoritmo de DWBA para redes 50G-EPON, para predizer a probabilidade de gerar um cliente atrasado quando duas ou mais aplicações FL competem pelos mesmos recursos na ONU. Dessa maneira, em cenários com largura de banda limitada, o escalonador poderia reduzir o número de clientes atrasados ao alocar recursos de forma seletiva. Isso seria alcançado ao não priorizar clientes com alta probabilidade de atraso, enquanto reservaria recursos para aqueles com probabilidade de atraso baixa.
No desenvolvimento da proposta, as seguintes etapas serão realizadas: i) emulação de diversas aplicações de aprendizado de maquina em um ambiente de federado empregando o Benchmark LEAF [20]. Além disso, iremos variar os hiper-parâmetros, como tempo de sincronização, taxa de aprendizado, número de épocas, tamanho do lote (batch), entre outros. O objetivo é determinar a quantidade de Operações de Ponto Flutuante (FLOPs) necessária por cliente a cada rodada para treinar o modelo local; ii) Criação de um cenário de estudo baseado em uma rede de banda larga 50G-EPON com tráfego de aplicações com diferentes requisitos de Qualidade de Serviço (QoS). iii) simulação do cenário, utilizando o simulador EPON-Sim [26]. iv) Análise e avaliação do algoritmo sob diferentes cargas de rede, e comparação com os algoritmos baselines da literatura. O objetivo é quantificar o atraso introduzido pela rede para cada cliente em cada rodada de treinamento. Esses dados serão reintroduzidos no Benchmark LEAF para obter a precisão do modelo quando o número de clientes atrasados varia em cada rodada de acordo com as condições de carga da rede.
Tarefa 20: Dinamicidade em 5G Functional Splitting em vRAN
Para diminuir a carga sobre o X (front-mid-back) haul(xHaul), as arquiteturas de Rede de Acesso de Rádio (RAN) descentralizadas, como Flexible Function Splitting (3GPP-TR-38.801) consideram a separação da pilha de protocolos. Nesta arquitetura, as funções de processamento de banda base são divididas em três partes: a Unidade Central (CU), a Unidade Distribuı́da (DU), e a Unidade Remota (RU), permitindo várias opções de divisão, fornecendo flexibilidade e possibilidade de redução de largura de banda e o atraso no xHaul, diminuindo a centralização das funções RAN.
O posicionamento dos diferentes componentes virtualizados (vRU, vDU e vCU) tem sido investigado através de otimização matemática e heurı́sticas devido a natureza NP-difı́cil do problema. Recentemente, a alocação e posicionamento de recursos tem sido investigado através de algoritmos de aprendizado por reforço (RL) e aprendizado por reforço profundo (DRL). No entanto, esses estudos, não consideram a dinâmica de variação do tráfego ao longo do dia em uma rede Xhaul, o que pode levar a soluções insatisfatórias. Nessas investigações, uma visão centralizada das demandas e recursos, como em um problema de otimização matemática, é adotada. Além disso, apenas soluções ótimas são procuradas, o que pode levar a uma necessidade de reconfiguração reativa e constante.
Nesta tarefa, pretende-se investigar soluções baseadas em RL e DRL que considerem variação de carga na rede em um perı́odo de 24 horas, padrão que tipicamente repete-se na RAN. Para tal, utilizar-se-ão dataset de demanda em redes celulares disponı́veis para cidades tais como Milão e Dublin. A simulação em diferente perı́odos ao longo de 24 horas permitirá avaliar a mudança necessária de alocação de recursos mı́nimos para lidar com as mudanças de demandas. Pretende-se, também, nessa avaliação, aplicar princı́pios de flexibilidade em redes virtualizadas para avaliar se soluções subotimas podem reduzir consideravelmente o overhead de realocação de recursos. Para tal, na simulação em perı́odo de 24 horas, decisões levariam em consideração o compromisso entre custo mı́nimo e overhead de reconfiguração.
Tarefa 21: Roteamento Baseado em Aprendizado por Reforço Distribuı́do
SDN visa a centralização do controle da rede, oferecendo melhor visibilidade e maior flexibilidade para gerenciar a rede e otimizar seu desempenho. No entanto, a arquitetura centralizada convencional do plano de controle em SDN sofre problemas de escalabilidade. uma vez que tal arquiteturs implanta tanto as tarefas de monitoramento quanto a tomada de decisões e instalação de regras de roteamento em um único controlador com uma visão de rede global, que pode ficar sobrecarregado com múltiples requisições quando a rede SDN é de grande escala. Além disso, foi demonstrado que a comunicação entre controladores impacta fortemente na escalabilidade da arquitetura para atender aos requisitos de QoS. Assim, a comunicação de vários controladores ainda é um desafio em SDN.
Por outro lado, além da necessidade de arquiteturas de rede flexı́veis e escaláveis, ainda é uma tarefa desafiadora fornecer QoS aos usuários por meio de mecanismos de roteamento tradicionais na atual Internet pública, especialmente, para serviços de entrega de mı́dia imersiva com alta demanda de largura de banda e rigorosas restrições de latência de ponta a ponta.
Trabalhos envolvendo múltiplos controladores no plano de controle enfrentaram o problema da intensa comunicação entre os controladores encarregados de diferentes subdomı́nios da rede. A construção de caminhos para roteamento em SDN foi estudada por abordagens baseadas em protocolo, controlador e broker. No entanto, essas abordagens possuem limitações, pois exigem interações complexas entre os controladores, para atualizar a topologia e diminuir o tempo de convergência necessário para a sincronização do estado da rede entre os domı́nios, o que faz com que escalabilidade em soluções de roteamento seja inviável em redes SDN de grande escala. As limitações encontradas apontam para a importância de incluir técnicas inteligêntes para a comunicação entre os controladores em redes SDN de grande porte, tais como DRL e Multi-Agent Reinforcement Learning (MARL). MARL é uma versão distribuı́da de aprendizado por reforço (RL) de agente único e se destaca na geração de ações de controle dinâmico em sistemas distribuı́dos, permitindo que agentes aprendam polı́ticas ótimas por meio da interação entre si e com o ambiente. A natureza de processamento distribuı́do do MARL o torna atraente para interações e tomada de decisão do plano de controle distribuı́do no SDN. No entanto, a interação e treinamento de vários agentes precisa lidar com vários desafios, tais como a não estacionariedade do sistema devido aos agentes mudarem seus comportamentos simultaneamente; assim, os agentes de aprendizagem precisam considerar o comportamento de outros participantes e os requerimentos de QoS do tráfego na rede para maximizar a recompensa.
Portanto, nesta tarefa, exploramos o roteamento SDN baseado em MARL, particularmente um sistema MARL com reconhecimento de QoS para roteamento em SDNs. Ao considerar o MARL sobre um SDN de múltiplos controladores com estruturas planas e hierárquicas de plano de controle, visamos enfrentar os problemas de escalabilidade no SDN convencional, enquanto é oferecido roteamento com reconhecimento dos requisitos de aplicativo em relação às suas necessidades de QoS, o qual ainda permanece inexplorado ao considerar redes SDN de grande escala.
No desenvolvimento da proposta, as seguintes tarefas serão feitas: i) desenho do modelo MARL definindo o objetivo de otimização, espaço de estado, espaço de ação e função de recompensa que conduzem o aprendizado dos agentes e criam a polı́tica de roteamento, ii) criação do cenário de estudo baseado em emulação de uma rede de SDN larga escala envolvendo tráfego de aplicações com diferentes requerimentos de QoS, iii) refinamento, análise e avaliação do modelo MARL sob diferentes tamanhos e cargas de rede.
Para uma avaliação baseada em emulação, é necessário implantar cenários de rede baseados em ferramentas de emulação. A camada de controle da rede SDN de larga escala vai ser instanciada fazendo uso do controlador ONOS e a topologia de rede é emulada através da ferramenta de rede Mininet. O roteamento com reconhecimento de QoS e vários caminhos também será suportado usando ferramentas Python para coletar métricas e estatı́sticas da rede via Mininet. A solução multiagente será implantada com base no framework TensorFlow, orientada para algoritmos baseados em ML. Serão considerados dois tipos de serviços gerados durante as etapas de treinamento e teste do modelo MARL: serviços multimı́dia baseados em QoS e serviços de tráfego background. O serviço baseado em QoS é simulado pelo tráfego que representa streaming de vı́deo HD ao vivo com taxa de bits de transmissão especı́fica e atraso máximo permitido por fluxo. O tráfego de background considera três serviços de tráfego diferentes: streaming de vı́deo SD em buffer, navegação na Web (ou seja, tipo de tráfego HTTP) e serviços de tráfego de transferência de arquivos. Conforme o último relatório anual da Cisco, o volume de tráfego de vı́deo atingirá 82% de todo o tráfego IP até 2023. Com base nessas estatı́sticas, a taxa de combinação de tráfego em nossa configuração experimental é determinada de forma que 82% do tráfego total seja representado por tráfego de vı́deo e os 18% restantes são representados por tráfego HTTP e FTP. Assumimos que o volume total de 82% de tráfego de vı́deo é dividido em 63% de vı́deo HD ao vivo e 19% de vı́deo SD com buffer. As proporções exatas serão mantidas para diferentes cargas de tráfego.
Tarefa 22: Aprendizado de Máquina para o Suporte de Acesso Massivo IoT em Redes 5G/6G
O gerenciamento de recursos de rádio (RRM, Radio Resource Management) é uma tarefa desafiadora em redes 5G/6G para IoT, uma vez que envolve a gerência do acesso aos limitados recursos de rede por uma grande quantidade de dispositivos, enquanto certos nı́veis de qualidade de serviço e eficiência da rede devem ser garantidos.
No contexto de comunicações massivas para IoT sobre redes 5G/6G, o problema de colisão de preâmbulos no procedimento de acesso aleatório aparece como um dos mais relevantes, pois pode impactar significativamente o consumo de energia dos dispositivos, a qualidade de serviço, bem como gerar escassez de banda passante ao usuário final. Dado os sinais do canal de acesso aleatório, o problema é determinar qual desses preâmbulos encontram-se em colisão [93]. Com essa informação, as tarefas de RRM podem ser otimizadas, por exemplo, priorizando a alocação dos recursos dos preâmbulos com menor chance de estar em colisão ou evitando alocar os recursos aos preâmbulos com alta chance de colisão. Outro problema neste mesmo contexto é o de multiplicidade de usuários, que visa determinar não apenas se existe colisão, mas também quantos usuários estão envolvidos. Essa informação pode ser utilizada para explorar novos mecanismo de RRM baseados na quantidade de usuários concorrentes, por exemplo, para resolução da colisão e alocação de recursos proporcional a essa quantidade.
A utilização de técnicas de aprendizado de máquina ganhou um grande interesse em redes 5G/6G e IoT. Essas técnicas podem auxiliar no desenvolvimento de mecanismos inovadores dos problemas mencionados previamente. No entanto, os trabalhos existentes relacionados a essa tarefa apresentam limitações para sua implementação prática, pois supõem conhecimento total sobre a informações de colisão (ex., se um preâmbulo está em colisão e os usuários envolvidos), ou porque o mecanismo de acesso não é compatı́vel com os padrões de redes móveis atuais.
Esta tarefa visa desenvolver mecanismos de gerenciamento de recurso de rádio baseados em técnicas de aprendizado de máquina centralizado e distribuı́do para resolver problemas relacionados ao suporte de acesso massivo IoT em redes 5G/6G. Um componente importante desta tarefa será a geração de datasets sintéticos e reais via simulação do procedimento de acesso aleatório (simulador sistêmico/rede) e emulação (testbed utilizando software com OpenAir Interface e vários USRPs), respectivamente. Os algoritmos e mecanismos a serem desenvolvidos nesta tarefa serão avaliados via simulação ou emulação. Eventualmente, os mecanismos a serem propostos serão também avaliados com modelagem analı́tica quando viável.
Tarefa 23: Meta Aprendizado Federado sobre Redes 5G/6G
Uma das questões centrais em redes 5G/6G é a capacidade de se prever variações do tráfego devido ao dinamismos e diversidade das aplicações, o que demanda alocação dinâmica de recursos de redes para lidar com as demandas das aplicações. A capacidade de se prever o tráfego e suas variações é crucial para o gerenciamento eficiente dos recursos de rede.
Como em aprendizado federado (FL), o meta-aprendizado compartilha um modelo global entre vários dispositivos. No entanto, o meta-aprendizado difere de aprendizado federado em três aspectos: (1) no FL, os dispositivos possuem seus próprios conjuntos de dados (com diferentes distribuições) com a mesma tarefa, enquanto no meta-aprendizado existem várias tarefas com seus respectivos conjuntos de dados; (2) No FL, os dispositivos implantam atualizações locais para melhorar o desempenho do aprendizado, enquanto no meta aprendizado, as atualizações do loop interno são usadas para cada tarefa para melhorar o desempenho do aprendizado; (3) No FL, a agregação de modelos é aplicada para melhorar o desempenho global de todos os dispositivos, enquanto no meta-aprendizado, um loop externo atualiza os parâmetros globais para todas as tarefas. Especialmente, os algoritmos de meta-aprendizado baseados em inicialização são bem conhecidos pela rápida adaptação e boa generalização para novas tarefas. A combinação das técnicas de aprendizado federado e meta-aprendizado é chamada de meta-aprendizado federado ou Fedmeta. Uma das suas vantagens é a redução no custo de comunicação necessário devido à convergência mais rápida e um aumento na precisão do aprendizado. Além disso, FedMeta permite compartilhamento de modelo e treinamento de modelo local sem expansão significativa no tamanho do modelo, contribuindo para a escalabilidade do processamento.
Um dos métodos de previsão de tráfego de rede é um preditor feed-forward, que consiste em um classificador de tráfego treinado para reconhecer tipos especı́ficos de tráfego e um preditor que leva o tráfego de rede e a classificação resultados como entradas. No entanto, esse mecanismo requer uma grande quantidade de conjuntos de dados rotulados para treinar cada classificador de tráfego, o que leva a uma alta complexidade computacional. Para resolver esse problema, pode-se usar meta-aprendizado para se selecionar um preditor. Definiu-se, também, um esquema de meta-aprendizado usado no preditor que consiste em uma polı́tica mestra e um conjunto de sub-polı́ticas. A polı́tica principal é responsável por selecionar qual subpolı́tica é usada para previsão durante o próximo intervalo de previsão. Meta-aprendizado permite a atualização dos subpreditores em tempo real, de modo que esses tenham a capacidade de se adaptar às variações nos padrões de tráfego ao longo do tempo. Uma das grandes desvantagens desse esquema é a necessidade de se retreinar o mestre quando da introdução de um novo subpreditor, o que leva a altos custos computacionais. Pretende-se, nessa tarefa, desenvolver mecanismo baseado em meta-aprendizado federado para acelerar o re treinamento de mestres, diminuindo a complexidade computacional, o que facilitará a predição de tráfego em tempo real para lidar e dos recursos de rede necessários para se lidar com as flutuações de tráfego. Nessa tarefa, utilizar-se-á a plataforma Flower para aprendizado federado e simulação com traços (datasets) de tráfego em redes celulares.