UTF-8 é um método padrão de codificação de caracteres para armazenar Unicode, desenvolvido para exibir vários idiomas.
Como Unicode e UTF-8 foram desenvolvidos após a década de 1990, uma versão inicial do formato ZIP (feita na década de 1980) não suportava UTF-8. Como o formato ZIP se tornou o formato de arquivo padrão e era necessário oferecer suporte a Unicode, no entanto, várias maneiras foram introduzidas para processar strings UTF-8 em arquivos ZIP.
Bandizip suporta dois deles; uma maneira é converter os nomes de arquivo em UTF-8 e a outra é armazenar nomes de arquivo UTF-8 adicionais em um campo de cabeçalho extra enquanto armazena os originais em MBCS.
Bandizip armazena nomes de arquivos em arquivos ZIP com a conversão deles para UTF-8. É um método de armazenamento de nome de arquivo padrão definido pelo APPNOTE, mas alguns arquivadores ocasionalmente falham em reconhecer os arquivos ZIP ou os manipulam incorretamente, causando nomes de arquivo quebrados. APPNOTE
Bandizip armazena nomes de arquivo UTF-8 adicionais em um campo de cabeçalho extra de formato ZIP, enquanto armazena os originais em MBCS. Esse método também é definido pelo APPNOTE como “Campo Extra de Caminho Unicode Info-ZIP”. Como ele usa o campo extra para armazenar os nomes de arquivos UTF-8, os tamanhos dos arquivos seriam dezenas de bytes maiores que os anteriores. No entanto, os nomes dos arquivos originais são armazenados no MBCS e, portanto, os arquivos são mais seguros e compatíveis.
Como a maioria dos arquivadores (como 7zip, Winrar e Winzip) oferece suporte a esse recurso, ele evita que seus nomes de arquivos sejam quebrados em sistemas operacionais com um idioma de sistema diferente.
A figura abaixo mostra a diferença entre usar o recurso e não usá-lo ao enviar um arquivo ZIP compactado no sistema operacional coreano para o sistema operacional japonês.
Os formatos TAR e TGZ são formatos de arquivo usados principalmente no Unix (que usa os nomes de arquivo UTF-8). Esse recurso faz com que você extraia arquivos TAR/TGZ no Unix sem problemas de nome de arquivo.
NOTA: Alguns aplicativos para Windows podem não reconhecer corretamente a página de código UTF-8 dos formatos TAR/TGZ.