環境設定 数値 文字列 正規表現 リスト タプル 集合 辞書 ループ 関数 クラス データクラス 時間 パス ファイル スクレイピング その他

Python で文字列からひらがなを削除する - ひらがなの置換

最終更新日 2023.02.18

Python で文字列からひらがなを削除する関数:

import re


def remove_hiragana(text: str):
    pattern = r'[\u3041-\u3096\u3099-\u309F]'
    return re.sub(pattern, '', text)


a = remove_hiragana('ドラえもん')
b = remove_hiragana('ピカチュウ')

print(a)  # ドラ
print(b)  # ピカチュウ

sub にパターン、置換後の文字列、置換したい文字列を入れます。置換後の文字列を空にすると、パターンにマッチする文字列が消えます。

ひらがな完全版

[あ-ん] だと小さい「あ」の などが漏れてしまう。ユニコードが定めるすべてのひらがなは

3041 ぁ
...
3096 ゖ
3099 ゙
...
309F ゟ

です。3097 と 3098 には文字がありません。以上からひらがなのパターンは

pattern = r'[\u3041-\u3096\u3099-\u309F]'

となります。