PHPでHTMLソース内にあるURLを取得するプログラムを作ってみました。 : ういすぷの記録帳

PHPでHTMLソース内にあるURLを取得するプログラムを作ってみました。

2024.04.01

HTMLのソースファイルから、画像などのファイルのURLを抽出するPHPプログラムです。
対象となるタグはととです
また、一部 ChatGPT3.5を利用しています。

ノーマルのソースはこちら。
正規表現をしてURLを抽出しています。
事前にファイルを読み込みして変数に入れている部分は自前です。
<?php
$sourceData = "";
$sourceData = OpenFile("source.html");

function OpenFile($file){
if (file_exists($file)) {
$newAray = array();
$handle = fopen("$file", "r");
while ($lines = fgets($handle)) {
$str = $lines;
array_push($newAray,$str);
}
fclose($handle);
$sourceData = join('',$newAray);
}
return $sourceData;
}

// 正規表現を使って<a>タグと<img>タグと<source>タグの中のURLを抽出する
$urlRegex = '/(?:<a[^>]*href=[\'"]([^\'"]+)[\'"][^>]*>|<img[^>]*src=[\'"]([^\'"]+)[\'"][^>]*>|<source[^>]*srcset=[\'"]([^\'"]+)[\'"][^>]*>)/i';

$urls = [];
preg_match_all($urlRegex, $sourceData, $matches);

// 抽出したURLを配列に追加する
foreach ($matches[1] as $match) {
if (!empty($match)) {
$urls[] = $match;
}
}

foreach ($matches[2] as $match) {
if (!empty($match)) {
$urls[] = $match;
}
}

foreach ($matches[3] as $match) {
if (!empty($match)) {
$urls[] = $match;
}
}

// ソート
sort($urls);

// URLを出力
echo "Found URLs:<br>\n";
foreach ($urls as $url) {
echo $url . "<br>\n";
}
?>

このままだとちょっと見にくかったので、ソースを更に短くしてみました。
こちらだとタグが増えても、対応し易いかなと思います。ただし、HTMLタグに対応するURLを厳密にみていません
AタグのURLはhrefに含まれますが、後者のソースでは、「href、src、srcset」のいずれかに値が含まれると表示されるようになっています。
<?php
#ini_set( 'display_errors', 1 );
$sourceData = "";
$sourceData = OpenFile("source.html");

function OpenFile($file){
if (file_exists($file)) {
$newAray = array();
$handle = fopen("$file", "r");
while ($lines = fgets($handle)) {
$str = $lines;
array_push($newAray,$str);
}
fclose($handle);
$sourceData = join('',$newAray);
}
return $sourceData;
}

// 正規表現を使って<a>タグと<img>タグと<source>タグの中のURLを抽出する
$urlRegex = '/(?:<(a|img|source)[^>]*(href|src|srcset)=[\'"]([^\'"]+)[\'"][^>]*>)/i';

$urls = [];
preg_match_all($urlRegex, $sourceData, $matches);

// 抽出したURLを配列に追加する
foreach ($matches[3] as $match) {
if (!empty($match)) {
$urls[] = $match;
}
}

// ソート
sort($urls);

// URLを出力
echo "Found URLs:<br>\n";
foreach ($urls as $url) {
echo $url . "<br>\n";
}
?>

なんでこんなの作ったかといえば、URL抽出する必要があったんですよね。
ChatGPTつかってちゃちゃっとやったので、荒削りです。すみません。

ご利用に関しては制限をしておりません。ご自由にご利用ください。
ただし、トラブル等は負えませんのでご了承ねがいます。