D�vida sobre a codifica��o no PyCharm

Question

Estava estudando como remover palavras em arquivos usando Python. Eu adicionava duas palavras no arquivo, uma normal e a outra rasurada. Antes de realizar a remo��o, ao abrir o arquivo, as palavras fi...

Leticia Lima · Answer

Eu acho que o problema pode ser no caractere de rasura ('\\u0336') no momento da escrita no seu arquivo, de como o PyCharm est� interpretando esse caractere.
Aqui est� uma alternativa de como eu tentaria resolver isso.

PS: j� tentou usar outra IDE ?

import codecs
import unicodedata

def rasurar_palavra(palavra):
    texto_normalizado = unicodedata.normalize('NFKD', palavra)
    texto_riscado = ''.join(['\\u0336{}'.format(c) for c in texto_normalizado])
    return texto_normalizado, texto_riscado

def remover_palavra_arquivo(nome_arquivo, palavra):
    texto_normalizado, texto_riscado = rasurar_palavra(palavra)

    # Escreve a palavra riscada no arquivo
    with codecs.open(nome_arquivo, "w", encoding="utf-8-sig") as arquivo:
        arquivo.write(texto_riscado)

    # Adiciona uma linha em branco
    with codecs.open(nome_arquivo, "a", encoding="utf-8-sig") as arquivo:
        arquivo.write("\\n")

    # L� o conte�do do arquivo
    with codecs.open(nome_arquivo, "r", encoding="utf-8-sig") as arquivo:
        print(arquivo.read())

    # Remove a palavra n�o riscada do arquivo
    with codecs.open(nome_arquivo, "r+", encoding="utf-8-sig") as arquivo:
        content = arquivo.readlines()

        for line in range(len(content)):
            if texto_normalizado in content[line]:
                content[line] = content[line].replace(texto_normalizado, '')

        arquivo.seek(0)
        arquivo.write(''.join(content))

# Exemplo de uso
remover_palavra_arquivo("test.txt", "Rasurado")

Arthur Heinrich · Answer

Acho que seu problema est� nesse trecho de c�digo

    for line in range(len(content)):
        if texto_normalizado in content[line]:
            content[line] = content[line].replace(texto_normalizado, '')

Se o "texto_normalizado" aparece na linha do arquivo, voc� est� substituindo o conte�do da linha, removendo o "texto_normalizado".

Imagine que sua linha cont�m o texto "picol� de morango" e o seu texto normalizado vale "morango". Como resultado sua linha vai aparecer como "picol� de ". Por�m, se o texto normalizado coincide com a linha toda, a linha ficar� em branco.

Se voc� quer que linhas em branco ap�s a substitui��o sejam eliminadas, precisar� exclu�-las do arquivo. Algo como:

    for line in range(len(content)):
        if texto_normalizado in content[line]:
            content[line] = content[line].replace(texto_normalizado, '')
            if (content[line] == ''):
                content.delete(line)

Lembrando que � um exemplo. N�o conhe�o as fun��es e sintaxe da linguagem.

F�rum D�vida sobre a codifica��o no PyCharm #619720