O desempenho destacado da Tesla nos testes da Dongche Di deve-se, em grande parte, à sua longa adesão à rota tecnológica de visão pura. Diferentemente da solução de fusão de múltiplos sensores comumente adotada por outras montadoras, que utiliza "lidar + radar de milímetros + câmeras", a Tesla depende apenas de câmeras para coletar informações visuais, utilizando algoritmos avançados para processar e realizar percepção ambiental e controle de decisão. Essa escolha tecnológica demonstrou várias vantagens significativas nos testes, ao mesmo tempo que gerou controvérsias contínuas na indústria.

A vantagem de custo é a competitividade mais intuitiva da solução de visão pura. De acordo com dados da indústria, o custo do sistema de condução inteligente do Tesla Model 3 é cerca de 40% menor do que o do Wanjie M9, que utiliza lidar. O custo unitário do lidar ainda está em torno de 500 dólares, enquanto o custo das câmeras comuns utilizadas pela Tesla é de apenas algumas dezenas de dólares. Essa diferença de custo permite que a Tesla mantenha uma margem de lucro mais alta, enquanto investe mais recursos no desenvolvimento de algoritmos e no processamento de dados. Os comentários dos internautas foram bastante incisivos: "A visão pura é o caminho certo, porque o mundo real é feito para os humanos, e o lidar desperdiça custos de hardware desnecessariamente".
O que mais impressionou nos testes foi a lógica de decisão semelhante à humana demonstrada pelo sistema da Tesla. No cenário de "obstáculo de caminhão em construção", quando o Model 3 se aproximou da área de obstáculo a 130 km/h, não apenas identificou rapidamente o obstáculo à frente e acionou os freios, mas também completou uma série de operações complexas, como mudar de faixa e contornar lentamente após uma breve pausa, conseguindo passar com sucesso em um espaço estreito de apenas 2,55 metros. Essa capacidade de "responder a cenários críticos de forma suave e até 'lógica'" reflete a principal vantagem da rede neural de ponta a ponta da Tesla — não se trata apenas de uma simples "percepção-resposta", mas sim de simular o processo de julgamento abrangente de um motorista humano.
A inovação na arquitetura técnica da Tesla também é uma razão importante para seu desempenho excepcional. O FSD V12 utiliza a arquitetura Vision Transformer, realizando diretamente a mapeação de entrada de imagem para comandos de controle através de um modelo de ponta a ponta. Seu algoritmo de previsão de trajetória esparsa reduz o tempo de resposta para decisões em cruzamentos complexos para 120 milissegundos, próximo ao nível humano. Mais importante ainda, o sistema da Tesla adota um design de "fluxo de decisão único", evitando problemas de conflito entre múltiplos sistemas. Nos testes da Dongche Di, o Wanjie M9 interrompeu forçosamente a função NCA (assistência de navegação automática) devido à ativação do AEB (frenagem de emergência automática) no cenário de construção, resultando em uma falha na estratégia do sistema; enquanto o sistema FSD da Tesla, por adotar uma arquitetura unificada, não apresenta a situação de "mão esquerda e mão direita se combatendo", tornando a decisão mais coesa e estável.
No entanto, a solução de visão pura também enfrenta muitas dúvidas e limitações. A controvérsia sobre os métodos de teste e a escolha de cenários é a mais proeminente. O responsável pelo ADS da Huawei apontou nas redes sociais: "A verdadeira competição de condução inteligente deve ocorrer em cenários complexos, como vilas urbanas e mercados, e não em rodovias fechadas." De fato, todos os testes da Dongche Di foram realizados em rodovias, sem incluir as complexas condições urbanas específicas da China, como conversões à direita sem proteção e a mistura de veículos não motorizados, que são reconhecidas como fraquezas da solução de visão pura. Um teste realizado em fevereiro deste ano mostrou que o FSD cometeu 34 infrações nas estradas urbanas da China, com uma capacidade de reconhecimento claramente insuficiente para elementos de tráfego locais, como faixas exclusivas para ônibus e faixas de fluxo de maré.

A dependência do ambiente é outro grande desafio. A taxa de precisão de reconhecimento da solução de visão pura pode cair 30% em condições extremas, como chuvas fortes e contraluz. Embora o hardware HW5.0 da Tesla esteja equipado com 12 câmeras resistentes às intempéries, utilizando lentes personalizadas da Samsung com elementos de aquecimento e revestimento hidrofóbico, mantendo uma distância de detecção efetiva de 250 metros em condições de chuva e neve, ainda pode haver flutuações de desempenho em ambientes complexos na prática. Em comparação, a solução de fusão de múltiplos sensores, através da capacidade de detecção ativa do lidar, pode oferecer um desempenho de percepção mais estável em condições climáticas adversas.
Vale ressaltar que as rotas tecnológicas não são completamente opostas, e a indústria está começando a mostrar uma tendência de fusão. O Huawei ADS 3.0 já foi ajustado para uma estratégia de "lidar como principal, visão como secundária"; enquanto a Tesla também está discretamente aprimorando seus algoritmos, com a mais recente versão FSD Beta 13.2 introduzindo mais tecnologia de segmentação semântica, aumentando a precisão de reconhecimento em 27%. Um consenso na indústria está se formando gradualmente: não há uma rota absolutamente ótima, apenas combinações que são mais adequadas para ambientes de mercado e ecossistemas tecnológicos específicos. O desempenho da Tesla nos testes da Dongche Di prova a viabilidade da solução de visão pura em condições específicas, mas isso não significa que essa rota tenha vantagens universais em todos os cenários.
Após a divulgação dos resultados dos testes de assistência à condução da Dongche Di, embora o desempenho da Tesla tenha recebido ampla atenção, as controvérsias em torno da metodologia, imparcialidade e representatividade do teste também surgiram. Essas controvérsias não apenas refletem a preocupação do público com o sistema de avaliação de condução inteligente, mas também revelam a insuficiência da indústria na construção de padrões. Analisar profundamente esses pontos controversos é crucial para entender corretamente o significado real dos resultados dos testes.
O controle das variáveis de teste é um dos aspectos mais questionados. Vários especialistas da indústria e montadoras apontaram que parâmetros-chave no teste, como velocidade do veículo e distância de seguimento, não foram padronizados. Por exemplo, no teste "o carro à frente desaparece repentinamente", as condições do cenário enfrentadas por diferentes modelos variam — alguns carros têm a faixa à esquerda vazia e podem contornar; enquanto outros têm a faixa à esquerda ocupada por outros veículos, impossibilitando a manobra. Da mesma forma, a distância de seguimento utilizou uma configuração "média" personalizada por cada montadora, mas essa norma varia enormemente: a "média" da Tesla pode corresponder a cerca de 120 metros de distância de seguimento (7 linhas brancas), enquanto a "média" do Wanjie é de apenas cerca de 45 metros (3 linhas brancas). Essa inconsistência na linha de partida torna difícil a comparação horizontal dos resultados dos testes.
Diante dessas dúvidas, a Dongche Di respondeu: "As variáveis realmente não podem ser completamente idênticas, mas a lógica geral se aproxima de cenários reais de uso em rodovias, e não de testes em laboratório padronizados." Eles enfatizaram que o objetivo do teste não é ver "quem é mais inteligente", mas sim "quem comete menos erros". Essa posição tem uma certa razoabilidade, pois o ambiente real das estradas está cheio de variáveis, e os sistemas de condução inteligente devem ser capazes de lidar com a incerteza. No entanto, como uma avaliação comparativa, o controle adequado das variáveis-chave ainda é um requisito básico para garantir a cientificidade dos resultados.
A controvérsia sobre a intervenção humana envolve a imparcialidade do processo de teste. No vídeo do teste do Wanjie M9 no cenário de construção, o veículo virou repentinamente, resultando em uma falha na manobra de desvio, e alguns internautas questionaram, através de vídeos em câmera lenta, se o motorista havia interferido no controle do veículo. Os técnicos da Dongche Di explicaram que isso foi causado pela interrupção da função NCA após a ativação do sistema AEB, resultando em um conflito do sistema, e não por intervenção humana. Essa explicação, embora razoável, também expõe a falta de transparência no processo de teste — se a parte responsável pelo teste pudesse divulgar previamente procedimentos operacionais e padrões de julgamento mais detalhados, tais controvérsias poderiam ser evitadas.
Uma controvérsia mais fundamental diz respeito à representatividade dos cenários de teste. Os testes da Dongche Di se concentraram em 15 cenários de alto risco, todos em situações padronizadas pré-definidas. No entanto, o ambiente real das estradas é muito mais complexo e variável, especialmente fenômenos de tráfego específicos das cidades chinesas, como bicicletas elétricas atravessando livremente, pedestres cruzando barreiras de proteção e veículos não motorizados trafegando na contramão, que não foram refletidos nos testes. A crítica do responsável pelo ADS da Huawei é pertinente: "A verdadeira competição de condução inteligente deve ocorrer em cenários complexos, como vilas urbanas e mercados." A limitação dos cenários de teste torna difícil refletir plenamente as diferenças de desempenho de cada sistema em uso real.
As questões levantadas sobre as marcas também merecem atenção. Alguns internautas apontaram que o investidor por trás da Dongche Di, a Sequoia Capital, também investiu na Tesla, levantando suspeitas sobre um possível viés de "capital emaranhado" nos testes. Embora a Dongche Di enfatize que os testes foram organizados em conjunto com a CCTV, com gravações completas e sem cortes, a conexão de capital pode realmente afetar a confiança do público. A resposta fria e "sem comentários" da Hongmeng Zhixing também sugere que algumas montadoras têm reservas quanto à imparcialidade dos testes.
Essas controvérsias refletem um problema mais profundo da falta de um sistema de padrões na indústria de condução inteligente. Atualmente, a China ainda não estabeleceu um padrão unificado de avaliação de testes de condução inteligente em nível nacional ou da indústria, e cada instituição de avaliação projeta seus próprios planos de teste, tornando difícil a comparação dos resultados. A sugestão do CEO da Li Auto, Li Xiang, é bastante construtiva: "Deveríamos estabelecer um padrão de teste unificado que inclua 100.000 cenários, abrangendo condições extremas como chuvas fortes, à noite, em túneis, etc." Sabe-se que a Associação da Indústria Automotiva da China já iniciou o trabalho de elaboração das "Normas de Avaliação de Testes de Sistemas de Condução Inteligente", com previsão de implementação em 2026, o que ajudará a melhorar a cientificidade e a credibilidade das avaliações na indústria.
Outra questão crucial é a delimitação das funções dos sistemas L2. Todos os modelos testados estão equipados com sistemas de assistência à condução de nível L2, cuja intenção de design é ajudar e não substituir o motorista humano. O vice-diretor do Departamento de Gestão de Trânsito do Ministério da Segurança Pública, Wang Qiang, deixou claro: "Atualmente, os sistemas de condução inteligente vendidos no mercado chinês não possuem função de condução automática." Isso significa que, independentemente dos resultados dos testes, o motorista deve manter a atenção total durante todo o tempo, pronto para assumir o controle do veículo. Algumas montadoras exageram na promoção da capacidade de "condução automática", levando os consumidores a ter expectativas irreais sobre o desempenho do sistema, o que também é uma razão para a discrepância entre os resultados dos testes e a percepção pública.