アキラのITメモ:さくらのサブドメインのインデックス数を調べる
IT関係、技術関係のメモです。
さくらのサブドメインのインデックス数を調べる
さくらのレンタルサーバを使っているのですが、さくらのレンタルサーバでは、特典でさくらが管理しているドメインの中から2つサブドメインを貰うことができます。せっかくなので取得してみようということで、どのドメインがいいのかなあと思いつつ見ていたのですが、どのドメインがどれくらい使われているのだろうとふと気になりました。それぞれのドメインがGoogleにどれくらいインデックスされているかみることで、ドメインの人気の参考にしようと思い、簡単なコードを書いて調べてみました。
コードは最後に付記しておきますがかなり汚いです。Google Web API?でしたっけ?を使えばAPIで取得できるようなのですが、なくなったという情報やブラウザで行う検索と結果が異なるという情報が頭の記憶の片隅にあったので、HTTPを使ってGoogleに直接聞きに行くことにしました。連続して聞きに行くのも悪いなあと思い、1秒おきに情報を取得しています。なお、結果はこのような感じになりました。
| URL | number of index | URL | number of index |
|---|---|---|---|
| uh-oh.jp | 11700 | jeez.jp | 34900 |
| websozai.jp | 16200 | 2-d.jp | 41300 |
| netgamers.jp | 106000 | tank.jp | 126000 |
| razor.jp | 17000 | rulez.jp | 99500 |
| matrix.jp | 99900 | spawn.jp | 9220 |
| dojin.com | 25500 | sakuratan.com | 22000 |
| halfmoon.jp | 273000 | ivory.ne.jp | 37300 |
| opal.ne.jp | 39600 | topaz.ne.jp | 17900 |
| mints.ne.jp | 52000 | sumomo.ne.jp | 36700 |
| mokuren.ne.jp | 0 | mail-box.ne.jp | 1090 |
| sakuraweb.com | 79100 | jpn.org | 588000 |
| x0.com | 226000 | squares.net | 144000 |
| rgr.jp | 62900 | rdy.jp | 139000 |
| skr.jp | 130000 | eek.jp | 195000 |
| flop.jp | 106000 | whoa.jp | 21700 |
| noob.jp | 61800 | achoo.jp | 52600 |
| bona.jp | 64300 | chew.jp | 27400 |
| crap.jp | 51800 | grats.jp | 19800 |
| grrr.jp | 16200 | rash.jp | 48400 |
| thyme.jp | 728 | amaretto.jp | 2350 |
| mimoza.jp | 13100 | nyanta.jp | 9910 |
| xii.jp | 145000 | deko8.jp | 37900 |
| o0o0.jp | 3080 | undo.jp | 12600 |
| saloon.jp | 52100 | rojo.jp | 2860 |
| daynight.jp | 9900 | gokujou.biz | 2320 |
| saikyou.biz | 3310 | fubuki.info | 1560 |
| 180r.com | 26200 | rossa.cc | 13600 |
| kokage.cc | 9070 | nazo.cc | 26500 |
| x0.to | 27100 | silk.to | 11100 |
| rusk.to | 42400 | sakura.tv | 11200 |
| from.tv | 57900 | kirara.st | 26700 |
| total | 3649298 | ||
さて、これを参考にしつつ、どこで取るか決めるかな。どうせならあまり人がいないドメインの方が面白いかなあと。mokuren.ne.jpが0なのは、誰もいないのか、まだ新しいドメインなのか、スパム認定されたのか、どうなんでしょう???使いやすそうなjpn.orgは一番インデックス数が多いですね。
なお、以下はスクリプトです。GoogleのHTMLの表示の仕様が変わると使えなくなるという代物です。一応動いているし使い捨てスクリプトだしいいかなと。HTTP::Liteを使ってます。
#!/usr/bin/perl
use HTTP::Lite;
my $baseurl = 'http://www.google.co.jp/search?q=site:';
my @url = (
'uh-oh.jp','jeez.jp','websozai.jp','2-d.jp','netgamers.jp',
'tank.jp','razor.jp','rulez.jp','matrix.jp','spawn.jp',
'dojin.com','sakuratan.com','halfmoon.jp','ivory.ne.jp',
'opal.ne.jp','topaz.ne.jp','mints.ne.jp','sumomo.ne.jp',
'mokuren.ne.jp','mail-box.ne.jp','sakuraweb.com',
'jpn.org','x0.com','squares.net','rgr.jp','rdy.jp',
'skr.jp','eek.jp','flop.jp','whoa.jp','noob.jp','achoo.jp',
'bona.jp','chew.jp','crap.jp','grats.jp','grrr.jp',
'rash.jp','thyme.jp','amaretto.jp','mimoza.jp','nyanta.jp',
'xii.jp','deko8.jp','o0o0.jp','undo.jp','saloon.jp','rojo.jp',
'daynight.jp','gokujou.biz','saikyou.biz','fubuki.info','180r.com',
'rossa.cc','kokage.cc','nazo.cc','x0.to','silk.to','rusk.to',
'sakura.tv','from.tv',
'kirara.st');
print "<table><tr><th>URL</th><th>number of index</th></tr>\n";
my $total = 0;
for ($i=0;$i<@url;$i++) {
my $http = new HTTP::Lite;
my $req = $http->request("$baseurl$url[$i]");
if ($req eq "200") {
my $body = $http->body();
if ($body =~ /<b>$url[$i]<\/b>(.*?)<b>([0-9,]+)<\/b>/m) {
$num = $2;
$num =~ s/,//g;
$total += $num;
}
else {
$num = 0;
}
print "<tr><td>@url[$i]</td><td>$num</td></tr>\n";
sleep(1);
}
}
print "<tr><th>total</th><td>$total</td></tr></table>\n";
カテゴリ:
コネタ
投稿日: 2007年02月10日 03:43
Trackback URL: http://akira-site.net/cgi-bin/mt/mt-tb.cgi/459
Trackback URL: http://akira-site.net/cgi-bin/mt/mt-tb.cgi/459
コメント
コメントを投稿
カテゴリ「コネタ」内の記事
サイト内検索
カテゴリ
- Linux
- Linux Tips [13]
- Linux ソフトウェア [3]
- Web技術
- (X)HTML/CSS [4]
- JavaScript [1]
- MovableType [7]
- その他 [3]
- 各種API [3]
- 各種ツール [4]
- Windows
- Win Tips [3]
- Win ソフトウェア [6]
- コネタ [7]
- プログラミング
- 機器 [4]