アキラのITメモ:メールアドレスを抜き出す
IT関係、技術関係のメモです。
メールアドレスを抜き出す
簡易に文章中からメールアドレスを抜き出す方法のメモ書きです。以下にPerlによる実現方法を示します。ここを参考にしました。ただし、この方法だと、1行にいくつもメールアドレスがある場合にうまく集計できないと思いますので、本当はもっときっちりと書いたほうが良いです。また、メールアドレスの正規表現もきっちりと書いていないです。
#!/usr/bin/perl
$format='[\w.-]+\@([\w-]+\.)+\w+'; # 簡略なメールアドレス正規表現
open(IN, "test.txt");
foreach(<IN>) {
if($_ =~ /($format)/){
push(@emails,$1."\n");
}
}
close(IN);
print @emails;
こんなことを調べて何をしたかったかというと、自分のアドレスに来ているスパムの統計を取ろうと思いたって、そのためのスクリプトを作りたかったわけです。スクリプト自体は簡単にできたので、あとは統計をとって対策を考えることにします。数週間前のニュースではメールのうち93%がスパムという話ですが(個人的にはもっと多そうですが)、スパム識別率93%のフィルタならすぐに作れそうです。
カテゴリ:
Perl
投稿日: 2006年12月21日 01:00
Trackback URL: http://akira-site.net/cgi-bin/mt/mt-tb.cgi/397
Trackback URL: http://akira-site.net/cgi-bin/mt/mt-tb.cgi/397
コメント
コメントを投稿
カテゴリ「Perl」内の記事
サイト内検索
カテゴリ
- Linux
- Linux Tips [13]
- Linux ソフトウェア [3]
- Web技術
- (X)HTML/CSS [4]
- JavaScript [1]
- MovableType [7]
- その他 [3]
- 各種API [3]
- 各種ツール [4]
- Windows
- Win Tips [3]
- Win ソフトウェア [6]
- コネタ [7]
- プログラミング
- 機器 [4]