【PHP】unicodeをutf-8等へ変換するルーチーン｜神戸ホームページ制作会社ユニファースの代表ブログ

YouTubeのRSSを読み込む際に、文字列がunicode化（エンティティーコード化）されていたので、

それを文字化するphpのサブルーチンを作成したので公開します。

unicode化というのは、

&amp;amp;#20037;
&amp;amp;#12375;

1 2	&amp;#20037; &amp;#12375;

というようなコードのことです。

では早速コードの公開です。

function decUnicode($data, $enc){
$data = preg_replace('/&#(\d+);/', "<>$1<>", $data);
$arySplitVal = split('<>', $data);

$le = count($arySplitVal);

$xout = "";
for ($i=0;$i<$le;$i++) {
if(preg_match("/^[0-9]+$/", $arySplitVal[$i])){
$xout .= mb_convert_encoding(pack("H*", dechex($arySplitVal[$i])), $enc, "UCS-2");
}else{
$xout .=$arySplitVal[$i];
}

}

return $xout;
}

function decUnicode($data, $enc){

$data = preg_replace('/&#(\d+);/', "<>$1<>", $data);

$arySplitVal = split('<>', $data);

$le = count($arySplitVal);

$xout = "";

for ($i=0;$i<$le;$i++) {

if(preg_match("/^[0-9]+$/", $arySplitVal[$i])){

$xout .= mb_convert_encoding(pack("H*", dechex($arySplitVal[$i])), $enc, "UCS-2");

}else{

$xout .=$arySplitVal[$i];

}

return $xout;

}

ネット上に、従来から公開されているコードを改良したものです。（ソースが行方不明になっております。ご指摘があれば、ご連絡下さい）

従来のものですと、既にローマ字のものはunicode化されていないので、思った変換になりません。

上記のコードならば、その問題をクリアしております。

【PHP】unicodeをutf-8等へ変換するルーチーン

お問い合わせ

コメントを残すコメントをキャンセル

お問い合わせ

関連記事

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル