A OpenAI está lançando um aguardado assistente de voz para o ChatGPT para um número limitado de usuários após ter adiado anteriormente o lançamento para resolver possíveis questões de segurança.

A startup de inteligência artificial disse que tornaria o recurso de voz disponível para um pequeno grupo de clientes pagantes do ChatGPT Plus a partir de terça-feira (30). O produto oferecerá quatro vozes predefinidas, mas não será capaz de imitar como outras pessoas falam, de acordo com a empresa. A OpenAI também afirmou que adicionou novos filtros para garantir que o software possa detectar e recusar alguns pedidos de geração de música ou outras formas de áudio protegido por direitos autorais.

A opção de voz foi o ponto central do evento de lançamento de produtos da OpenAI em maio para o GPT-4o, uma versão atualizada do seu modelo GPT-4 que é melhor em lidar com texto, áudio e imagens em tempo real. A startup havia introduzido uma opção mais limitada para o ChatGPT falar de volta aos usuários no ano ado, mas o novo recurso prometia ser mais rápido e se combinar com capacidades poderosas de reconhecimento de imagem para transformar o chatbot em um parceiro de conversa muito mais útil e dinâmico.

LEIA MAIS: Com o novo ChatGPT ‘for all’, OpenAI quer que você jogue fora a sua Alexa

A OpenAI disse anteriormente que pretendia lançar o assistente de voz para um pequeno grupo de s pagos do ChatGPT Plus no final de junho, mas decidiu que precisava de mais um mês para “atingir nosso padrão para lançamento”. A empresa afirmou que estava trabalhando na capacidade do software de detectar e se recusar a responder a certos tipos de conteúdo e garantir que pudesse processar efetivamente solicitações de milhões de usuários.

“Lançando gradualmente, podemos monitorar de perto o uso e melhorar continuamente as capacidades e a segurança do modelo com base no do mundo real”, disse a empresa em um comunicado. A OpenAI também reiterou seu plano de lançar o recurso de voz para todos os seus s pagos do ChatGPT Plus na primavera.

A empresa disse que ainda está trabalhando em recursos de vídeo e compartilhamento de tela que foram demonstrados durante o evento de maio. Esses recursos ainda não têm data de lançamento.

Como resultado, o recurso de voz terá uma lista mais limitada de capacidades para começar. Por exemplo, o chatbot não poderá ar um recurso de visão computacional que permitiria oferecer falado sobre os movimentos de dança de uma pessoa simplesmente usando a câmera do smartphone.