アキラのITメモ:メールアドレスを抜き出す

IT関係、技術関係のメモです。

メールアドレスを抜き出す

簡易に文章中からメールアドレスを抜き出す方法のメモ書きです。以下にPerlによる実現方法を示します。ここを参考にしました。ただし、この方法だと、1行にいくつもメールアドレスがある場合にうまく集計できないと思いますので、本当はもっときっちりと書いたほうが良いです。また、メールアドレスの正規表現もきっちりと書いていないです。

#!/usr/bin/perl
$format='[\w.-]+\@([\w-]+\.)+\w+'; # 簡略なメールアドレス正規表現

open(IN, "test.txt");
foreach(<IN>) {
    if($_ =~ /($format)/){
        push(@emails,$1."\n");
    }
}
close(IN);

print @emails;

こんなことを調べて何をしたかったかというと、自分のアドレスに来ているスパムの統計を取ろうと思いたって、そのためのスクリプトを作りたかったわけです。スクリプト自体は簡単にできたので、あとは統計をとって対策を考えることにします。数週間前のニュースではメールのうち93%がスパムという話ですが(個人的にはもっと多そうですが)、スパム識別率93%のフィルタならすぐに作れそうです。

カテゴリ: Perl 投稿日: 2006年12月21日 01:00
Trackback URL: http://akira-site.net/cgi-bin/mt/mt-tb.cgi/397

コメント

コメントを投稿





カテゴリ「Perl」内の記事

サイト内検索

カテゴリ

最近のエントリ

関連商品

アバウト

Atom RSS
Powered by MT3.33-ja
合計:total
今日:today 昨日:yesterday